当前位置: 首页 > article >正文

llama3学习

首先是预训练部分,数据注意版权和风险问题。数据去重和数据清理,PII人的身份信息(人名、地址等)。如果数据有大量PII数据则这个数据丢掉。 

网页的数据,提取,代码和数学的提取的特别的方法,OCR提取,或者是结构化的分析。markdown的处理

去重:可能可以去掉60%,URL去重,文档去重(Min hash文档正文相似去重),行级别去重,正文中出现超过6次去重(比如广告,提示性的东西)。

很长的没什么用的去除,或者网页中脏次太多去除。

用模型做分类,质量差的就去除。

代码或者推理性的数据,代码和推理性的网页找出之后,抽取出数据,做一些判断

多语言数据,每个语言会根据语言质量怎么样提取高语言质量的数据吧

3.12讲数据混合

高质量数据多用些

知识分类,把网页分成20个类,知识类、宗教类、娱乐类等不同的比例,模型训练的时候混合比例可以试不同的。

我们的数据混合,50%左右是通用知识,25%是数学和逻辑类,17%是代码,8%是多语言(多语言这里可以稍微多一点),llama3其实多语言是比较差的)

退火数据,用退火数据。高质量的数据可能是比较少的,在训练完之后在小数据集中再训练一点点。他们的实验表明这样有提升效果。

可以用70%的原数据,30%的新数据,评估新数据的好坏。

3.2模型架构 

 


http://www.kler.cn/a/525598.html

相关文章:

  • 深入探讨:服务器如何响应前端请求及后端如何查看前端提交的数据
  • 多协议网关BL110钡铼6路RS485转MQTT协议云网关
  • 27.useFetch
  • 抖音上线打车服务?抖音要大规模杀入网约车了吗?
  • ubuntu 更新24LTS中断导致“系统出错且无法恢复,请联系系统管理员”
  • 深入探索 HTML5 拖拽效果 API:打造流畅交互体验
  • 数据完整性-03
  • 为AI聊天工具添加一个知识系统 之79 详细设计之20 正则表达式 之7
  • (undone) MIT6.S081 2023 学习笔记 (Day7: LAB6 Multithreading)
  • Writing an Efficient Vulkan Renderer
  • 引入@Inject的依赖包
  • 雪花算法认知(Twitter_Snowflake)
  • Android车机DIY开发之软件篇(九) NXP AutomotiveOS编译
  • 基于MinIO的对象存储增删改查
  • 中国291个地级市的人均GDP数据(2022年)-社科数据
  • MR-GDINO: Efficient Open-World Continual Object Detection—— 高效开放世界持续目标检测
  • 大模型知识蒸馏技术(1)——蒸馏技术概述
  • 讯飞智作 AI 配音技术浅析(二):深度学习与神经网络
  • 嵌入式知识点总结 Linux驱动 (五)-linux内核
  • Linux Samba 低版本漏洞(远程控制)复现与剖析
  • d3.js: Relation Graph
  • 「AI学习笔记」深度学习进化史:从神经网络到“黑箱技术”(三)
  • 使用Python将Excel文件转换为PDF格式
  • Spring WebFlux揭秘:下一代响应式编程框架,与Spring MVC有何不同?
  • ROS_noetic-打印hello(√)
  • 你了解哪些Java限流算法?