当前位置: 首页 > article >正文

Meta 上周宣布正式开源小型语言模型 MobileLLM 系列

在 7 月发布之后,Meta 上周宣布正式开源能够在智能手机上运行的小型语言模型 MobileLLM 系列。

Meta 在四个月前发布了这两个参数量小于 10 亿的语言模型 MobileLLM 125M 及 MobileLLM 350M。如今,Meta 又开发出了更大参数量的模型版本,包括 MobileLLM - 600M/1B/1.5B。

Meta 指出,团队全面考虑了多项设计因素,并整合了 SwiGLU 激活函数、“深而精简”架构、内嵌共享以及群组查询注意力机制来开发出 MobileLLM 模型。 从成果来看,MobileLLM 125M/350M 在零样本常识理解任务中的准确率,比 Cerebras、OPT、BLOOM 等先进模型分别高 2.7%和 4.3%。根据 Meta 提供的数据,新增的模型成员如 MobileLLM - 1.5B,更是超越了 GPT - neo - 2.7B、OPT - 2.7B、BLOOM - 3B、Qwen 1.5 - 1.8B 与 Pythia - 2.8B 等参数量较大的其他模型。

Meta 也强调 MobileLLM 训练快速。在 32 颗 Nvidia A100 80G GPU 的服务器环境下,以 1T 字词训练不同参数量的 MobileLLM 所需天数,1.5B 版本只要 18 天,最小的 125M 更只需 3 天。这些模型都已通过 GitHub 与 Hugging Face 开源。

随着智能手机性能日益强大,以及用户对高速响应、低延迟、安全性的需求,越来越多的模型开发商提供小模型。谷歌有 Gemma 2,微软有 Phi 3,OpenAI 则有 GPT - 4o mini,苹果有 DCLM。Hugging Face 上周也公布了小语言模型 SmolLM 2 家族。

在这一趋势下,小型语言模型的竞争愈发激烈。各大科技公司纷纷投入大量资源,不断优化和创新自己的产品。MobileLLM 系列的开源无疑为整个行业带来了新的活力和机遇。开发者们可以基于这些开源模型进行进一步的改进和创新,为用户提供更加个性化、高效的服务。

同时,随着小模型的不断涌现,对于模型的评估和比较也变得尤为重要。未来,可能会出现更加科学、全面的评估标准,以帮助用户更好地选择适合自己需求的语言模型。此外,安全性和隐私保护也将是小模型发展过程中需要重点关注的问题。只有在确保用户数据安全的前提下,小模型才能真正赢得用户的信任和广泛应用。

可以预见,在未来的日子里,小型语言模型将在智能手机等移动设备上发挥越来越重要的作用,为人们的生活和工作带来更多的便利和创新。


http://www.kler.cn/a/386129.html

相关文章:

  • 学习threejs,使用TWEEN插件实现动画
  • 服务器上安装Orcale数据库以及PL SQL工具(中文)
  • Go开发指南- Goroutine
  • 检测敏感词功能
  • 无人机应用场景:石油管道巡检技术详解
  • 基于Spring Boot的计算机课程管理:工程认证的实践
  • 怎样使用pycharm的服务?
  • FFmpeg - 音视频文件编码
  • lua入门教程:ipairs
  • DevExpress JS ASP.NET Core v24.1亮点 - 支持DateOnly/TimeOnly类型
  • linux强制修改mysql的root账号密码
  • Elasticsearch的数据类型
  • Zookeeper运维秘籍:四字命令基础、详解及业务应用全解析
  • 机器学习—sigmoid的替代品
  • 开发中使用UML的流程_01概述
  • Go:接口和反射
  • 机器学习-倒数5个项目(05)
  • 文件上传和下载
  • 带宽与下载速度的对应关系
  • c#使用COM接口设置excel单元格宽高匹配图片,如何计算?
  • 关于stm32中IO映射的一些问题
  • 想买开放式耳机如何挑选?5款高人气开放式耳机分享
  • OSPF动态路由配置实验:实现高效网络自动化
  • FreeSWITCH Ubuntu 18.04 源码编译
  • (Go语言)初上手Go?本篇文章帮拿捏Go的数据类型!
  • FineBI漏斗图分析转化率计算,需要获取当前节点和上一节点的转化率,需要获取错行值实现方案