当前位置: 首页 > article >正文

用爬虫自建行业知识库

 一

几年前用 Python 写过一个程序,自动抓取各市文化局网站相关栏目文章,然后把抓到的文章,写成离线网页,发到指定邮箱。

当时针对每个网页写一个爬虫,对每一个网页都进行分析。比如,标题是什么,发布时间在哪,正文内容如何保存等等。因为工作量慢慢变大,后来就把它放到代码库里吃灰。

现在,每天要采集整理各地文旅信息,去年年底又重新捡起之前的代码。

重构了一遍代码,大体实现自动抓取全省16个市局、文化报、旅游报、相关文化机构、多数省级文旅部门网站的每日更新信息。最后写了一个网页,动态呈现抓取信息。

现在,每天早上程序自动运行,逐个查看各地文旅网站更新了没有,更新了什么,并对信息库进行同步。

总体实现步骤如下:

第一步:用查看每一个信息源(网站)的更新情况,只抓取主页上的两项信息,即链接标题、链接地址,以文本文件形式保存到本地。

通过多个程序分别对全省16市文旅部门及相关机构、省级文旅部门、文化报、旅游报、副省级城市文旅部门网站进行访问。

第二步:将信息保存到本地,与数据库表已有记录进行比对,如果数据库表中不存在相同的记录,则对数据库表进行更新。

第三步:所有代码及数据更新后同步到代码库。

第四步:写一个网页(内网使用),对数据库中信息分类呈现,并提供检索功能。

第五步:通过脚本(windows 环境的自动批处理文件),依次调用第一步、第二步里的多个程序,加入操作系统的任务计划程序定时运行。

工作流程共五个环节:获取、更新、同步、呈现、运行。

以上工作量最大的是第一步,即信息获取。

由于每个信息源的最新信息、主要信息,一般会在网站主页呈现,所以只需关注主页更新即可。

这里的技术难点,主要有两个:

1、不同的信息源(网站)保存信息的方式不同,需要分别处理。

2、少数信息源(网站)采用特殊设置,要避开这些特殊设置,需要对网站进行深入分析和调试,这给自动获取信息带来一些困难,有些甚至解决不了。

这是一个非常小的、相当简陋的项目,实现过程中有一些收获。

其中,最大的收获是可以更方便地了解各地文旅动态,不用再逐个翻看网站,节省了不少时间。

其次,在实现过程中也进一步熟悉了相关技术。比如,如何用 python + Selenium 模拟网页访问;如何避开网站的一些特殊设置;如何使用 python + Sqlite 操作数据库;如何用 python + flask 写动态网页,包括网页模板、检索功能实现等;如何使用 Git;如何自动化工作流程,等等。此外,通过代码重构还加深了对程序模块化设计的理解。

信息采集是一个常见的需求。

大的搜索引擎,如百度、谷歌、搜狗、必应等,都是基于信息采集而发展起来的“重型武器”。对大多数行业来说,可能不需要这大的“火力”,仅需要自身行业的信息库。

基于浩如烟海的网络信息,建立属于行业自身的信息库,并不断更新,是必要且必须之事。

还可以做哪些扩展? 

从内网到外网使用,从PC端到移动端,搜集更多数据,整理更多信息,挖掘更多知识,呈现更多智慧......


http://www.kler.cn/a/231453.html

相关文章:

  • 环形缓冲区 之 STM32 串口接收的实现
  • 第8章硬件维护-8.2 可维护性和可靠性验收
  • 闫氏DP分析法应用
  • nodejs入门(1):nodejs的前后端分离
  • 【网络云计算】2024第48周-技能大赛-初赛篇
  • NLP论文速读(谷歌出品)|缩放LLM推理的自动化过程验证器
  • 三、设计模式相关理论总结
  • Leetcode刷题笔记题解(C++):64. 最小路径和
  • TI毫米波雷达开发——High Accuracy Demo 串口数据接收及TLV协议解析 matlab 源码
  • JAVA的学习Day1
  • uniapp /微信小程序 使用map组件实现手绘地图方案
  • LeetCode 刷题【Java常用API与数据结构总结】(持续更新……)
  • 92.使用数组形式的责任链模式实现项目配置初始化
  • 深度学习(14)--x.view()详解
  • Kubernetes 是什么?
  • 【算法题】95. 不同的二叉搜索树 II
  • ChatPromptTemplate和AI Message的用法
  • C语言第二十弹---指针(四)
  • vue3-内置组件-KeepAlive
  • Android:IntentActivity,Service,BroadcastReceiver
  • FANUC机器人外部远程启动的相关参数设置示例
  • docker proxy 【docker 代理】
  • ChatGPT实战100例 - (14) 打造AI编程助手 Code Copilot
  • 相机图像质量研究(8)常见问题总结:光学结构对成像的影响--工厂调焦
  • BUGKU-WEB 留言板
  • 大数据环境搭建(一)-Hive