当前位置：首页 > article >正文

头条百度批量采集软件说明文档

article 2025/2/13 0:52:55

旧版说明文档《头条号文章批量采集软件4.0版本说明文档！头条/微头条文章批量采集》头条的采集软件已经更新了好多个版本了，一直没有做详细的介绍文档，最近更新了一些功能进去，一块来写一下说明文档。

1、主界面

2、头条作者采集

网址文件选择txt ，使用选择按钮选择，不要手动复制路径进去

保存目录选择一个文件夹

保存的格式有：

url：网址放在一个txt中去）、txt：一篇文章一个txt，图片自动下载到images目录下面、docx：保存成word、保存成html、数据存储成csv只存网址

最小阅读量：小于这个阅读量的文章不采集

翻页数量：作者列表的下拉次数

字数限制：文章内容低于这个数值不采集

时间限制：一定要按照给的示例进行填写，年-月-日时:分:秒个位数的数字补零，比如2025-01-02 03:04:12 这里面的01 02 03 04都补零了

下载图片的宽高限制，可以是200，意思宽高小于200不保存，也可以填200,300 宽小于200高小于300不下载

延迟时间：采集一篇之后的暂停时间

屏蔽图片：0不屏蔽图片下载，1屏蔽图片下载（意思就是不下载图片了）

裁剪像素：下载图片的时候，从底部往上裁剪图片像素，设置30-50即可

图文同目录：只对txt采集模式有效，设置1，txt保存的时候会保存到文章图片目录下面，0就是常规模式

屏蔽词：一行一个，文章中包含里面的关键词不采集，不要有空行

头条cookie：我提供的cookie有效尽量不要换，换了可能采集不到

强制监控采集：无限循环作者列表进行采集，慎用，可能会被反爬

采集头条文章/微头条文章，这里不做说明了。

2、头条链接采集

这里是我们整理好头条网址或者微头条网址，放到txt中，软件调用进行采集，比如：有些客户可以从易撰这种网站下载爆文网址，那么可以用这个功能，把文章和图片下载到本地。

这里要说明一点，如果是我们下载的微头条网址中，不带/w/我们需要把下载的网址改动一下，比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/，我们需要改成https://www.toutiao.com/w/123/这种个样式的，把item改成w，这样软件才能识别。

网址文件：调用txt文件，使用选择按钮进行选择

保存txt：把数据保存成txt

保存docx：把数据保存成docx

裁剪像素：和上面的原理一样，裁剪图片。

txt图文同目录：只针对txt数据，把txt保存到文章图片目录下面去

采集模式：爬虫模式是直接爬取源码，网页模式是驱动谷歌浏览器进行采集，使用网页模式爬取的时候，一定要使用自己头条账号的cookie，很多链接只有登录才会看的到，否则会出现一个头条的登录页面。