当前位置: 首页 > article >正文

端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5

SmolLM2开源了:更快、更好、更便宜, 包含三个尺寸:135M、360M 和 1.7B。

图片

端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5BLlama 3.2 1B:

  • Apache 2.0许可

  • 训练于11万亿个令牌

  • 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码数据集上训练 

  • 专门用于文本重写、总结和函数调用 

  • 使用 UltraFeedback 的直接偏好优化(DPO)

  • 可以在Q4上用不到2GB的VRAM运行SmolLM2 1.7B

图片

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9https://hf-mirror.com/HuggingFaceTB/SmolLM2-1.7B-Instruc

来源 | PaperAgent

LLM热点Paper23

LLM热点Paper · 目录

上一篇o1背后的秘密:6种推理模式解析!


http://www.kler.cn/a/382929.html

相关文章:

  • 【GlobalMapper精品教程】091:根据指定字段融合图斑(字段值相同融合到一起)
  • Linux第99步_Linux之点亮LCD
  • 基于springboot校园招聘系统源码和论文
  • Nmon(Nigel‘s Performance Monitor)
  • 探索基金聚合平台的背景与发展:Finanzen.net、Franklin Templeton、Finect
  • 【JavaEE】Spring Web MVC
  • 基础算法练习--滑动窗口(日更中)
  • 青少年编程与数学 02-003 Go语言网络编程 12课题、Go语言Soket编程
  • RabbitMQ 管理平台(控制中心)的介绍
  • SpringBoot健身房管理:提升效率与体验
  • STM32中,在哪些时候需要配置复用推挽/开漏输出?
  • 3种方法轻松从硬盘恢复已删除文件!
  • 零基础学习Java AI Spring AI
  • 舜宇光学科技入职测评:北森商业推理40分钟28题真题解析、网盘资料下载、答题技巧
  • stable diffusion 大模型
  • 腾讯轻量云服务器docker拉取不到镜像的问题:拉取超时
  • 如何不封禁UDP协议同时防止UDP攻击
  • swagger 报错查看
  • 深度学习中的多头注意力机制:原理与实现解析
  • 科技查新在医药健康领域的应用
  • 计算机网络:运输层 —— 运输层概述
  • yii 常用一些调用
  • 江西省技能培训平台(逆向破解登录国密SM2)
  • 【django】Django REST Framework 构建 API:APIView 与 ViewSet
  • 【ChatGPT】如何通过逐步提示提高ChatGPT的细节描写
  • 工业以太网PLC无线网桥,解决用户布线难题!