当前位置: 首页 > article >正文

LLMs之Dataset:中文互联网基础语料2.0的简介、下载和使用方法、案例应用之详细攻略

LLMs之Dataset:中文互联网基础语料2.0的简介、下载和使用方法、案例应用之详细攻略

目录

中文互联网基础语料2.0的简介

1、特点

中文互联网基础语料2.0的下载和使用方法

中文互联网基础语料2.0的案例应用


中文互联网基础语料2.0的简介

2025年1月发布,中文互联网基础语料2.0是中文互联网基础语料系列的第二批语料,主要用于大型模型的预训练。该语料库由中国网络空间安全协会人工智能安全治理专委会联合国家权威机构共同打造,依托“共建-共享”机制,汇聚了120GB的高质量可信数据,包含约3800万条数据。

官网地址:中国网络空间安全协会

1、特点

>> 安全合规:在中央网信办相关业务部门指导下,对数据源进行严格筛选,确保语料数据的合法性、真实性、准确性和客观性。

>> 高质量内容:通过一系列数据处理步骤,包括信源筛选、格式清洗、语言过滤、数据去重、内容过滤、隐私过滤等,形成积极健康、向上向善的优质内容。

>> 清洗过滤处理:对违法不良信息进行过滤,符合《生成式人工智能服务管理暂行办法》等法律法规要求;同时,过滤低质内容,提高语料库的整体质量。

>> 数据去重:采用主流去重算法,确保语料库中的数据独特性。

>> 协同创新:发挥企业、高校和科研单位的优势,共同推动中文互联网基础语料库的建设,为国家人工智能技术创新和产业发展赋能。

中文互联网基础语料2.0的下载和使用方法

下载地址:https://corpus.cybersac.cn/#/dataSetDetail?dataSetId=397

中文互联网基础语料2.0的案例应用

持续更新中……


http://www.kler.cn/a/510733.html

相关文章:

  • git操作
  • ASP .NET Core 学习(.NET9)配置接口访问路由
  • 深入探索 Vue.js 组件开发中的最新技术:Teleport 和 Suspense 的使用
  • C++ 强化记忆
  • 【OpenCV(C++)快速入门】--opencv学习
  • linux下的NFS和FTP部署
  • 【2024年华为OD机试】 (B卷,100分)- 字符串分割(Java JS PythonC/C++)
  • 【服务器】Ubuntu22.04配置静态ip
  • 【论文阅读】End-to-End Adversarial-Attention Network for Multi-Modal Clustering
  • 第13章:Python TDD完善货币加法运算(二)
  • 【MyDB】3-DataManager数据管理 之 4-数据页缓存
  • 综述:大语言模型在机器人导航中的最新进展!
  • 【机器学习】机器学习引领数学难题攻克:迈向未知数学领域的新突破
  • YOLOv9改进,YOLOv9检测头融合,适合目标检测、分割任务
  • 第6章:Python TDD实例变量私有化探索
  • 推荐一个开源的轻量级任务调度器!TaskScheduler!
  • 基于单片机的智能家居控制系统设计及应用
  • 利用R计算一般配合力(GCA)和特殊配合力(SCA)
  • Go Map 源码分析(一)
  • Windows蓝牙驱动开发-蓝牙 IOCTL
  • “AI 辅助决策系统:决策路上的智慧领航员
  • epoll函数为何是高效率的
  • 专业数据分析不止于Tableau,四款小众报表工具解析
  • re:Invent 2024 - CEO 主题演讲与 Matt Garman (前半)
  • PyTorch使用教程(9)-使用profiler进行模型性能分析
  • Kivy App开发之UX控件TabbedPanel选项面板