当前位置：首页 > article >正文

大语言模型（LLM）一般训练过程

article 2025/3/1 7:36:35

收集：从多种来源收集海量文本数据，如互联网的新闻文章、博客、论坛，以及书籍、学术论文、社交媒体等，以涵盖丰富的语言表达和知识领域。例如，训练一个通用型的LLM时，可能会收集数十亿甚至上百亿字的文本数据.
清洗：去除数据中的噪声和无关信息，如HTML标签、特殊字符、错误数据、重复项等，还会删除个人敏感信息。比如，将文本中的“ ”等HTML实体编码替换为对应的空格，删除包含大量乱码或明显错误的文本段落.
分词与标记化：将文本分割成词语或子词的序列，并为每个词语或子词分配一个唯一的标识符。例如，使用空格、标点符号或特定规则将句子“我正在学习自然语言处理”分词为“我”“正在”“学习”“自然语言处理”等 tokens.
构建样本：根据任务需求，将数据组织成训练样本。比如对于语言模型预测下一个词的任务，可以从文本中滑动窗口提取连续的序列作为输入样本，目标是预测下一个词语。假设窗口大小为5，输入样本可以是“我正在学习自然语言”，目标词语则是“处理”.