当前位置：首页 > article >正文

大模型训练数据库Common Crawl

article 2024/11/14 12:31:11

Common Crawl介绍

‌‌Common Crawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。
Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌Common Crawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后，可以用于自然语言处理和机器学习的训练。
Common Crawl 每个月都会发布一个快照，包含了随机搜索和采样的 URL 所获得的网页。每个网页包括下面三个信息：
- 原始网页数据（WARC）
- 元数据（WAT）
- 文本提取（WET）

数据集地址

Common Crawl

Common Crawl数据处理

CCNet
Comcrawl用于查询下载Common Crawl数据。

http://www.kler.cn/a/310998.html

相关文章：

并发基础：（淘宝笔试题）三个线程分别打印 A，B，C，要求这三个线程一起运行，打印 n 次，输出形如“ABCABCABC....”的字符串【举一反三】

「Mac玩转仓颉内测版7」入门篇7 - Cangjie控制结构（下）

系统架构设计师论文

Java项目实战II基于微信小程序的个人行政复议在线预约系统微信小程序（开发文档+数据库+源码）

【Vue】Vue3.0（二十一）Vue 3.0中的$event使用示例

笔记｜ image may have poor performance,or fail,if run via emulation

MySQL常用的函数

函数的定义与使用

【Hot100】LeetCode—169. 多数元素

常见汇编指令

C++系列-谓词predicate

AWTK fscript 中的 CRC函数

转行大模型开发：挑战与机遇，如何有效学习以实现职业转变

第二证券：移动物联网迎政策助力稀土价格有望持续回暖

【C++】 —— string的使用

[go] 适配器模式

爬虫之隧道代理：如何在爬虫中使用代理IP？

[Leetcode] 227.基本计算器

Kleopatra与MinGW64中gpg冲突

[Linux] 通透讲解什么是进程

嵌入式常用算法之低通滤波算法

libgit2编译

智慧课堂学生行为数据集

2024最新版 Tuxera NTFS for Mac 2023绿色版图文安装教程

达梦数据库导入xml迁移到达梦数据库大文件导致中断问题解决方案记录？

ESP8266+httpServer+GET+POST实现网页验证密码