当前位置: 首页 > article >正文

Meta AI 最近推出了一款全新的机器学习框架ParetoQ,专门用于大型语言模型的4-bit 以下量化

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta AI 最近推出了一款全新的机器学习框架——ParetoQ,专门用于大型语言模型的4-bit 以下量化。随着深度学习模型的不断膨胀,模型压缩技术的重要性日益凸显,而低比特量化成为一种既能缩小模型体积,又能保持准确度的关键方法。然而,围绕量化比特数的争论一直没有定论,一些研究认为4-bit 量化是最优解,而另一些研究则认为1.58-bit 模型同样能取得类似表现。由于缺乏统一的评估框架,不同研究得出的结论往往矛盾,导致低比特精度量化的规模化规律难以建立。

量化的难点在于如何在计算效率模型准确度之间找到最佳平衡。不同方法各有优缺点,例如后训练量化(PTQ)虽然可以直接在训练好的模型上进行量化,部署方便,但低比特时准确率损失较大;量化感知训练(QAT)则是在训练过程中就引入量化,使模型能够更好地适应低比特表示。此外,还有可学习量化和混合精度策略等方法尝试进一步优化模型压缩效果。但由于评估标准不统一,很难直观比较不同量化方法的优劣。

为了解决这一问题,Meta AI 研究团队推出了ParetoQ,它作为一个标准化框架,支持1-bit、1.58-bit、2-bit、3-bit 和 4-bit 量化的系统性评估。相比以往各自为政的量化研究,ParetoQ 通过优化训练方案和比特特定量化函数,提供了一种更具一致性的比较方式。

ParetoQ 如何优化低比特量化?

该框架采用优化版 QAT 训练策略,在保证模型压缩效果的同时,将准确率损失降到最低。研究发现,当模型精度降至2-bit 以下时,会发生显著的表征偏移,而3-bit 及以上的模型则仍然保持与原始预训练分布的相似性。为此,ParetoQ 针对不同比特宽度优化量化网格、调整训练方式,并提供比特特定的学习策略

实验结果显示,ParetoQ 在性能上远超现有的量化方法。例如,研究团队基于 ParetoQ 训练的600M 参数三进制(ternary)模型,准确率超越了之前最强的 3B 参数三进制模型,但参数量仅为其五分之一。此外,2-bit 量化模型在相同体积下的准确率相比 4-bit 模型提升1.8 个百分点,证明了2-bit 量化是 4-bit 量化的有效替代方案

不仅如此,ParetoQ 还带来了更高效的硬件适配性。优化后的2-bit CPU 内核计算速度和内存效率上都比 4-bit 量化更优,使低比特量化在实际部署中更加可行。实验也表明,相比 1-bit 和 4-bit 量化,2-bit、3-bit 及 ternary 量化模型在准确率和模型大小之间达到了更优平衡,进一步强化了4-bit 以下量化策略的价值

未来展望

这项研究奠定了大型语言模型低比特量化的坚实基础。通过引入结构化框架,ParetoQ 有效解决了准确率权衡与比特宽度优化问题。研究结果表明,虽然极端低比特量化(如 1-bit)可行,但目前来看,2-bit 和 3-bit 量化仍是最佳选择,能够在性能和效率之间达到理想平衡。未来,随着硬件对低比特计算的支持不断增强,这些方法将进一步提升大规模机器学习模型在受限资源环境下的部署可行性。


http://www.kler.cn/a/538830.html

相关文章:

  • Java数据结构 | TreeMap 和 TreeSet
  • java基础语法中阶
  • 深度学习和机器学习的区别|自注意力机制和多头注意力机制的展示|售前面试题
  • CSS Overflow 属性详解:控制内容溢出的利器
  • 电商行业的新篇章:3D和AR技术助力销售转化率提升!
  • Android双屏异显Presentation接口使用说明
  • 在Ubuntu云服务器上使用OneFormer模型进行遥感图像水体提取,并替换为客户数据集的详细步骤
  • 战场物联网中的移动雾人工智能
  • Docker、Kubernetes (k8s) 和 Docker Compose 的概念
  • 活动预告 | 为 AI 新纪元做好准备:助力安全的业务转型
  • 律所录音证据归集工具:基于PyQt6与多线程的自动化音频管理解决方案
  • 【Android】Android开发应用如何开启任务栏消息通知
  • Spring Boot的理解
  • 机器学习之Transformer 模型
  • 关于JS继承的七种方式和理解
  • 宝塔 binlog mysql 数据恢复
  • go并发和并行
  • 人工智能应用-智能驾驶精确的目标检测和更高级的路径规划
  • 【Spring Boot】统一异常处理
  • PostgreSQL中级认证价值
  • 人工智能AI合集:Ollama本地部署对话语言大模型之DeepSeek-网页UI访问完整版
  • 74.在 Vue 3 中使用 OpenLayers 实现游龙动画效果
  • DeepSeek迁移学习与预训练模型应用
  • CST的TLM算法仿真5G毫米波阵列天线及手机
  • DeepSeek-R1 32B Windows+docker本地部署
  • C++学习笔记——类和对象(上)