当前位置：首页 > article >正文

端侧小模型新星，SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5

article 2025/2/22 16:46:27

SmolLM2开源了：更快、更好、更便宜，包含三个尺寸：135M、360M 和 1.7B。

端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B：

Apache 2.0许可
训练于11万亿个令牌
在FineWeb-Edu、DCLM、The Stack以及新的数学和编码数据集上训练
专门用于文本重写、总结和函数调用
使用 UltraFeedback 的直接偏好优化（DPO）
可以在Q4上用不到2GB的VRAM运行SmolLM2 1.7B

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9https://hf-mirror.com/HuggingFaceTB/SmolLM2-1.7B-Instruc

来源 | PaperAgent

LLM热点Paper23

LLM热点Paper · 目录

上一篇o1背后的秘密：6种推理模式解析！

http://www.kler.cn/a/382929.html

相关文章：

基础算法练习--滑动窗口(日更中)

青少年编程与数学 02-003 Go语言网络编程 12课题、Go语言Soket编程

RabbitMQ 管理平台（控制中心）的介绍

SpringBoot健身房管理：提升效率与体验

STM32中，在哪些时候需要配置复用推挽/开漏输出？

3种方法轻松从硬盘恢复已删除文件！

零基础学习Java AI Spring AI

舜宇光学科技入职测评：北森商业推理40分钟28题真题解析、网盘资料下载、答题技巧

stable diffusion 大模型

腾讯轻量云服务器docker拉取不到镜像的问题：拉取超时

如何不封禁UDP协议同时防止UDP攻击

swagger 报错查看

深度学习中的多头注意力机制：原理与实现解析

科技查新在医药健康领域的应用

计算机网络：运输层 —— 运输层概述

yii 常用一些调用

江西省技能培训平台(逆向破解登录国密SM2)

【django】Django REST Framework 构建 API：APIView 与 ViewSet

【ChatGPT】如何通过逐步提示提高ChatGPT的细节描写

工业以太网PLC无线网桥，解决用户布线难题！