当前位置: 首页 > article >正文

人工智能领域正经历模型规模变革,小型语言模型(SLM)崛起,挑战“规模至上”观念。

在人工智能领域,一场关于模型规模的深刻变革正在悄然发生。长久以来,科技巨头们热衷于庞大语言模型(LLM)的开发竞赛,但如今,小型语言模型(SLM)正以其独特的优势逐步崭露头角,对“规模越大越好”的传统观念发起挑战。

最新进展
据ITBEAR报道,8月21日成为了一个重要的里程碑,微软与英伟达分别发布了其最新的SLM成果——Phi-3.5-mini-instruct与Mistral-NeMo-Minitron8B。这两款模型凭借其在计算资源的高效利用与功能表现上的卓越平衡,迅速吸引了业界的目光,其部分性能指标甚至可与大型模型相媲美。

市场趋势
人工智能初创公司Hugging Face的首席执行官Clem Delangue对此趋势表示高度认同,他指出高达99%的使用场景均可通过SLM有效解决,并大胆预言2024年将是SLM崛起的关键之年。统计数据显示,今年以来,包括meta、微软、谷歌在内的科技巨头已累计发布了多达9款小型模型,进一步印证了SLM的快速发展态势。

兴起背景
SLM的兴起并非孤立现象,而是深刻反映了LLM在性能提升与资源消耗方面所面临的双重挑战。AI初创公司Vellum与Hugging Face今年4月发布的性能对比报告显示,顶级LLM之间的性能差距正迅速缩小,特别是在多项选择题、推理及数学问题等特定任务上,模型间的差异已微乎其微。然而,与此相对的是LLM训练成本的持续攀升,其海量数据需求与数以亿计甚至万亿计的参数规模,导致了极高的资源消耗。

能源与成本考量
国际能源署的预测更是令人警醒,预计到2026年,数据中心、加密货币及人工智能相关的电力消耗将接近日本全国的用电量。OpenAI首席执行官阿尔特曼曾透露GPT-4的训练成本至少为1亿美元,而Anthropic首席执行官Dario Amodei更是预测未来模型训练成本可能高达1000亿美元。此外,LLM的复杂工具与技术要求也增加了开发人员的学习难度,从训练到部署的漫长过程进一步减缓了开发速度。

SLM的优势
面对LLM的诸多挑战,科技公司纷纷将目光投向了SLM。作为LLM的精简版,SLM拥有更少的参数和更简单的设计,不仅降低了数据需求和训练时间(仅需几分钟或几小时),还显著提升了部署的灵活性与效率。例如,SLM可以轻松嵌入手机等小型设备中,无需依赖昂贵的超算资源,从而大幅降低成本并提升响应速度。

更为关键的是,SLM的专业化特性使其在实际应用中表现更为出色。针对特定任务或领域进行训练的SLM,如情绪分析、命名实体识别及特定领域的问答等,往往能够提供比通用模型更精准、高效的解决方案。此外,由于SLM在更窄、更有针对性的数据集上进行训练,其生成的内容也更为准确,减少了“幻觉”现象的发生。

综上所述,随着市场对多样化AI解决方案需求的不断增长以及投资者对成本效益的日益关注,SLM正逐步成为人工智能领域的新宠儿。未来,我们有理由相信SLM将在更多领域展现出其独特的魅力与价值。


http://www.kler.cn/a/284159.html

相关文章:

  • 基于 Python Django 的二手房间可视化系统分析
  • 字节跳动Android面试题汇总及参考答案(80+面试题,持续更新)
  • 向日葵软件Windows系统连接苹果系统(MacOS)的无反应问题解决办法
  • C++《继承》
  • 使用elementUI实现表格行拖拽改变顺序,无需引入外部库
  • 深入理解BERT模型配置:BertConfig类详解
  • 算法设计与分析:实验1 排序算法性能分析
  • elasticsearch存入数据嵌入式数据解决扁平化查询问题
  • 后端微服务与分布式系统
  • LeetCode 3153.所有数对中数位差之和:计数
  • html2Canvas和jspdf导出长pdf
  • 绿色消费新动力:‘众店‘模式引领数字经济下的零售创新
  • TCP数据包——报文头部组成
  • x264 编码器 AArch64汇编系列:zigzag 扫描相关汇编函数
  • 互联网平台大模型网络架构设计
  • 美国硅谷多ip服务器用途广吗?
  • IOS开发 铃声制作(库乐队)
  • 叶子苏网络建站服务工作室
  • 【ceph学习】ceph如何进行数据的读写(3)
  • Rust语言实现图像编码转换
  • Linux提升篇-Linux虚拟网络介绍
  • VS2019开发CAN上位机
  • 模糊视频一键变清晰,从此告别模糊不清的画质
  • 为什么 mysql-connector-java 只需要在 runtime 作用范围中配置
  • 8.26算法训练
  • CSS学习4[重点]