当前位置：首页 > article >正文

人工智能领域正经历模型规模变革，小型语言模型（SLM）崛起，挑战“规模至上”观念。

article 2024/11/15 11:09:20

在人工智能领域，一场关于模型规模的深刻变革正在悄然发生。长久以来，科技巨头们热衷于庞大语言模型（LLM）的开发竞赛，但如今，小型语言模型（SLM）正以其独特的优势逐步崭露头角，对“规模越大越好”的传统观念发起挑战。

最新进展
据ITBEAR报道，8月21日成为了一个重要的里程碑，微软与英伟达分别发布了其最新的SLM成果——Phi-3.5-mini-instruct与Mistral-NeMo-Minitron8B。这两款模型凭借其在计算资源的高效利用与功能表现上的卓越平衡，迅速吸引了业界的目光，其部分性能指标甚至可与大型模型相媲美。

市场趋势
人工智能初创公司Hugging Face的首席执行官Clem Delangue对此趋势表示高度认同，他指出高达99%的使用场景均可通过SLM有效解决，并大胆预言2024年将是SLM崛起的关键之年。统计数据显示，今年以来，包括meta、微软、谷歌在内的科技巨头已累计发布了多达9款小型模型，进一步印证了SLM的快速发展态势。

兴起背景
SLM的兴起并非孤立现象，而是深刻反映了LLM在性能提升与资源消耗方面所面临的双重挑战。AI初创公司Vellum与Hugging Face今年4月发布的性能对比报告显示，顶级LLM之间的性能差距正迅速缩小，特别是在多项选择题、推理及数学问题等特定任务上，模型间的差异已微乎其微。然而，与此相对的是LLM训练成本的持续攀升，其海量数据需求与数以亿计甚至万亿计的参数规模，导致了极高的资源消耗。

能源与成本考量
国际能源署的预测更是令人警醒，预计到2026年，数据中心、加密货币及人工智能相关的电力消耗将接近日本全国的用电量。OpenAI首席执行官阿尔特曼曾透露GPT-4的训练成本至少为1亿美元，而Anthropic首席执行官Dario Amodei更是预测未来模型训练成本可能高达1000亿美元。此外，LLM的复杂工具与技术要求也增加了开发人员的学习难度，从训练到部署的漫长过程进一步减缓了开发速度。

SLM的优势
面对LLM的诸多挑战，科技公司纷纷将目光投向了SLM。作为LLM的精简版，SLM拥有更少的参数和更简单的设计，不仅降低了数据需求和训练时间（仅需几分钟或几小时），还显著提升了部署的灵活性与效率。例如，SLM可以轻松嵌入手机等小型设备中，无需依赖昂贵的超算资源，从而大幅降低成本并提升响应速度。

更为关键的是，SLM的专业化特性使其在实际应用中表现更为出色。针对特定任务或领域进行训练的SLM，如情绪分析、命名实体识别及特定领域的问答等，往往能够提供比通用模型更精准、高效的解决方案。此外，由于SLM在更窄、更有针对性的数据集上进行训练，其生成的内容也更为准确，减少了“幻觉”现象的发生。