深度学习-13-小语言模型之SmolLM的使用
文章附录
- 1 SmolLM概述
-
- 1.1 SmolLM简介
- 1.2 下载模型
- 2 运行
-
- 2.1 在CPU/GPU/多 GPU上运行模型
- 2.2 使用torch.bfloat16
- 2.3 通过位和字节的量化版本
- 3 应用示例
- 4 问题及解决
-
- 4.1 attention_mask和pad_token_id报错
- 4.2 max_new_tokens=20
- 5 参考附录
1 SmolLM概述
1.1 SmolLM简介
SmolLM是一系列尖端小型语言模型,提供三种规模的版本:分别为135M、360M和1.7B参数。这些模型基于Cosmo-Corpus构建,这是一个经过精心策划的高质量训练数据集。
Cosmo-Corpus涵盖了Cosmopedia v2(由Mixtral生成的280亿个token的合成教科书和故事)、
Python-Edu(来自The Stack的40亿个token的教育性Python样本)以及FineWeb-Edu(来自FineWeb的220亿个token的去重教育性网页样本)。在测试常识推理和世界知识的多个基准测试中,SmolLM模型与其他同类规模的模型相比展现出了有希望的结果。
据 Hugging Face 官方消息,Hugging Face 近日推出一系列 SmolLM小模型,包含多个不同参数的模型。
SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7