当前位置：首页 > article >正文

深度学习-13-小语言模型之SmolLM的使用

article 2025/2/23 14:29:19

文章附录

1 SmolLM概述
- 1.1 SmolLM简介
- 1.2 下载模型
2 运行
- 2.1 在CPU/GPU/多 GPU上运行模型
- 2.2 使用torch.bfloat16
- 2.3 通过位和字节的量化版本
3 应用示例
4 问题及解决
- 4.1 attention_mask和pad_token_id报错
- 4.2 max_new_tokens=20
5 参考附录

1 SmolLM概述

1.1 SmolLM简介

SmolLM是一系列尖端小型语言模型，提供三种规模的版本：分别为135M、360M和1.7B参数。这些模型基于Cosmo-Corpus构建，这是一个经过精心策划的高质量训练数据集。
在这里插入图片描述

Cosmo-Corpus涵盖了Cosmopedia v2（由Mixtral生成的280亿个token的合成教科书和故事）、
Python-Edu（来自The Stack的40亿个token的教育性Python样本）以及FineWeb-Edu（来自FineWeb的220亿个token的去重教育性网页样本）。在测试常识推理和世界知识的多个基准测试中，SmolLM模型与其他同类规模的模型相比展现出了有希望的结果。

据 Hugging Face 官方消息，Hugging Face 近日推出一系列 SmolLM小模型，包含多个不同参数的模型。

SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7

查看全文

http://www.kler.cn/a/313521.html