大模型训练数据库Common Crawl
Common Crawl介绍
- Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
- Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
- Common Crawl 每个月都会发布一个快照,包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息:
- 原始网页数据(WARC)
- 元数据(WAT)
- 文本提取(WET)
数据集地址
- Common Crawl
Common Crawl数据处理
- CCNet
- Comcrawl用于查询下载Common Crawl数据。