当前位置：首页 > article >正文

【加密社】3分钟快速制作一个爬虫？不懂编程也没关系

article 2025/3/5 10:36:57

先上图，我们爬取的是某个区块链快讯的网站。

为什么我们要使用爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

像电商网站（比如亚马逊、淘宝）每天都会有大量的商品上新和用户评论。而在搜索引擎中，随便搜索一个热门关键词，比如“智能手机”，就能找到成千上万条相关的网页信息。

面对如此庞大的信息量，我们如何从中找到对我们有用的信息呢？

答案自然是筛选，那你作为用户，又没有权力直接进入人家数据库去筛选。那咋办呢？

那就需要用到我们的 “爬虫” 了

尽管网络爬虫这个名字听起来有点怪异，让人联想到那些软软蠕动的小生物，但它实际上是一个在网络世界中非常强大的工具。

网络爬虫可以帮助我们在海量的信息中快速找到我们需要的内容，为我们提供决策支持和有用的数据。

如何快速制作一个爬虫（Python）

1.安装环境

首先第一步，那肯定是要先安装python环境了，类似的教程网上有很多，在这里我就不介绍了。

2.安装依赖库

pip install beautifulsoup4

比如我的文件夹在,这个路径下，那么我在这个路径下运行cmd,输入上面的命令

一旦安装完成，你就可以开始使用 BeautifulSoup 来解析 HTML 文档了。

3.选择要爬取的网站，并提取HTML

我在这举个例子，大家就能看懂了。

爬取某区块链资讯网站

在网页上按F12进入开发者调试模式

利用HTML选择器，找到这块的HTML

那在这里可以看到，article标签就是我们要找的这一类的HTML

如果要优化的话，可以更深层次的往下去找，

例如这个div，每个article标签下都存在于这样的DIV，那么事情就简单了

鼠标放在刚才的div上，右键，编辑为html

把里面的东西全复制出来，类似于这样的结构

原封不动的，去找AI，我是这样问的

于是乎，AI就生成了一个爬虫的原型，对于不同的网站来说，HTML结构不同，但是AI也能处理的非常好。

如果它生成的脚本不对，你还可以把python内报错的信息发给他，他会重新给你生成一遍，一般来说，3次左右，就能生成一个完整无缺的，针对于你指定网站，指定内容的网站脚本。

查看全文

http://www.kler.cn/a/298043.html

YOLOv8改进 | 模块缝合 | C2f 融合RFAConv和CBAM注意力机制【二次融合小白必备】

【SAP-ABAP】JAVA通过SAP JCO（SAP.JAR）链接SAP需要注意哪些事项（SAP ROUTER连接报错）

机器学习：对数据进行降维（PCA和SVD）

逻辑一键导入导出，解决企业多环境数据迁移的难题

【PyTorch】使用容器(Containers)进行网络层管理(Module)

（六十五）第 10 章内部排序（希尔排序）

三十五、Gin注册功能实战

VScode 的简单使用

进程

TortoiseGit无法安装解决方案

16 训练自己语言模型

javase笔记12----线程2

深度学习笔记15_TensorFlow实现运动鞋品牌识别

Oracle表操作详解使用

CentOS 安装Squid代理

用Postman调试是英文导致系统语言变成英文，SQL语句查询不出来对应的字段，出现SAP系统里面调试是有值的，但是外部调用是没有值的！

ssl 协议工作过程

HTTPS访问是什么？

数据分析-埋点

前缀和优化DP，LeetCode 3177. 求出最长好子序列 II

为什么我们要使用爬虫？

如何快速制作一个爬虫（Python）

相关文章：