当前位置: 首页 > article >正文

【加密社】3分钟快速制作一个爬虫?不懂编程也没关系

先上图,我们爬取的是某个区块链快讯的网站。

  • 为什么我们要使用爬虫?

图片

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
 

原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。

像电商网站(比如亚马逊、淘宝)每天都会有大量的商品上新和用户评论。而在搜索引擎中,随便搜索一个热门关键词,比如“智能手机”,就能找到成千上万条相关的网页信息。

面对如此庞大的信息量,我们如何从中找到对我们有用的信息呢?

答案自然是筛选,那你作为用户,又没有权力直接进入人家数据库去筛选。那咋办呢?

那就需要用到我们的 “爬虫” 了

尽管网络爬虫这个名字听起来有点怪异,让人联想到那些软软蠕动的小生物,但它实际上是一个在网络世界中非常强大的工具。

网络爬虫可以帮助我们在海量的信息中快速找到我们需要的内容,为我们提供决策支持和有用的数据。

  • 如何快速制作一个爬虫(Python)

图片

1.安装环境

首先第一步,那肯定是要先安装python环境了,类似的教程网上有很多,在这里我就不介绍了。

2.安装依赖库

pip install beautifulsoup4

比如我的文件夹在,这个路径下,那么我在这个路径下运行cmd,输入上面的命令

图片

一旦安装完成,你就可以开始使用 BeautifulSoup 来解析 HTML 文档了。

3.选择要爬取的网站,并提取HTML

我在这举个例子,大家就能看懂了。

  1. 爬取某区块链资讯网站

图片

在网页上按F12进入开发者调试模式

利用HTML选择器,找到这块的HTML

图片

那在这里可以看到,article标签就是我们要找的这一类的HTML

如果要优化的话,可以更深层次的往下去找,

例如这个div,每个article标签下都存在于这样的DIV,那么事情就简单了

图片

鼠标放在刚才的div上,右键,编辑为html

图片

把里面的东西全复制出来,类似于这样的结构

图片

原封不动的,去找AI,我是这样问的

于是乎,AI就生成了一个爬虫的原型,对于不同的网站来说,HTML结构不同,但是AI也能处理的非常好。

如果它生成的脚本不对,你还可以把python内报错的信息发给他,他会重新给你生成一遍,一般来说,3次左右,就能生成一个完整无缺的,针对于你指定网站,指定内容的网站脚本。

图片


http://www.kler.cn/a/298043.html

相关文章:

  • YOLOv8改进 | 模块缝合 | C2f 融合RFAConv和CBAM注意力机制 【二次融合 小白必备】
  • 【SAP-ABAP】JAVA通过SAP JCO(SAP.JAR)链接SAP需要注意哪些事项(SAP ROUTER连接报错)
  • 机器学习:对数据进行降维(PCA和SVD)
  • 逻辑一键导入导出,解决企业多环境数据迁移的难题
  • 【PyTorch】使用容器(Containers)进行网络层管理(Module)
  • (六十五)第 10 章 内部排序(希尔排序)
  • 三十五、Gin注册功能实战
  • VScode 的简单使用
  • 进程
  • TortoiseGit无法安装解决方案
  • 16 训练自己语言模型
  • javase笔记12----线程2
  • 深度学习笔记15_TensorFlow实现运动鞋品牌识别
  • Oracle表操作详解使用
  • CentOS 安装Squid代理
  • 用Postman调试是英文导致系统语言变成英文,SQL语句查询不出来对应的字段,出现SAP系统里面调试是有值的,但是外部调用是没有值的!
  • ssl 协议工作过程
  • HTTPS访问是什么?
  • 数据分析-埋点
  • 前缀和优化DP,LeetCode 3177. 求出最长好子序列 II