当前位置: 首页 > article >正文

深度学习-13-小语言模型之SmolLM的使用

文章附录

  • 1 SmolLM概述
    • 1.1 SmolLM简介
    • 1.2 下载模型
  • 2 运行
    • 2.1 在CPU/GPU/多 GPU上运行模型
    • 2.2 使用torch.bfloat16
    • 2.3 通过位和字节的量化版本
  • 3 应用示例
  • 4 问题及解决
    • 4.1 attention_mask和pad_token_id报错
    • 4.2 max_new_tokens=20
  • 5 参考附录

1 SmolLM概述

1.1 SmolLM简介

SmolLM是一系列尖端小型语言模型,提供三种规模的版本:分别为135M、360M和1.7B参数。这些模型基于Cosmo-Corpus构建,这是一个经过精心策划的高质量训练数据集。
在这里插入图片描述

Cosmo-Corpus涵盖了Cosmopedia v2(由Mixtral生成的280亿个token的合成教科书和故事)、
Python-Edu(来自The Stack的40亿个token的教育性Python样本)以及FineWeb-Edu(来自FineWeb的220亿个token的去重教育性网页样本)。在测试常识推理和世界知识的多个基准测试中,SmolLM模型与其他同类规模的模型相比展现出了有希望的结果。

据 Hugging Face 官方消息,Hugging Face 近日推出一系列 SmolLM小模型,包含多个不同参数的模型。

SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7


http://www.kler.cn/a/313521.html

相关文章:

  • 代码 RNN原理及手写复现
  • ML 系列: 第 23 节 — 离散概率分布 (多项式分布)
  • 嵌入式硬件杂谈(一)-推挽 开漏 高阻态 上拉电阻
  • Springboot集成syslog+logstash收集日志到ES
  • 机器学习day3-KNN算法、模型调优与选择
  • JavaScript高级程序设计基础(四)
  • 【Linux 从基础到进阶】OpenStack 私有云平台搭建
  • SpringBoot使用@Scheduled注解实现定时任务
  • MavenMyBatis
  • 0基础跟德姆(dom)一起学AI 数据处理和统计分析04-Panda入门
  • 【操作系统】01.冯·诺伊曼体系结构
  • Flask-WTF的使用
  • 【C++】透析string类
  • 力扣300-最长递增子序列(Java详细题解)
  • 软考无损连接判断
  • Apache Airflow如何使用
  • Python编码系列—Python策略模式:灵活应对变化的算法策略
  • Java 在 GIS 领域的学习路线?
  • 硬件工程师笔试面试——开关
  • 数据飞轮崛起:数据中台真的过时了吗?
  • 基于python+django+vue的旅游网站系统
  • 【script】java武魂技展示:在java中使用不同的脚本语言 一文体现java生态的强大
  • -bash: apt-get: command not found -bash: yum: command not found
  • 算法-深度拷贝链表(138)
  • 毕业设计选题:基于ssm+vue+uniapp的校园商铺系统小程序
  • 【PCL实现点云分割】ROS深度相机实践指南(上):PCL库初识和ROS-PCL数据类型转换