llama3学习
首先是预训练部分,数据注意版权和风险问题。数据去重和数据清理,PII人的身份信息(人名、地址等)。如果数据有大量PII数据则这个数据丢掉。
网页的数据,提取,代码和数学的提取的特别的方法,OCR提取,或者是结构化的分析。markdown的处理
去重:可能可以去掉60%,URL去重,文档去重(Min hash文档正文相似去重),行级别去重,正文中出现超过6次去重(比如广告,提示性的东西)。
很长的没什么用的去除,或者网页中脏次太多去除。
用模型做分类,质量差的就去除。
代码或者推理性的数据,代码和推理性的网页找出之后,抽取出数据,做一些判断
多语言数据,每个语言会根据语言质量怎么样提取高语言质量的数据吧
3.12讲数据混合
高质量数据多用些
知识分类,把网页分成20个类,知识类、宗教类、娱乐类等不同的比例,模型训练的时候混合比例可以试不同的。
我们的数据混合,50%左右是通用知识,25%是数学和逻辑类,17%是代码,8%是多语言(多语言这里可以稍微多一点),llama3其实多语言是比较差的)
退火数据,用退火数据。高质量的数据可能是比较少的,在训练完之后在小数据集中再训练一点点。他们的实验表明这样有提升效果。
可以用70%的原数据,30%的新数据,评估新数据的好坏。
3.2模型架构