一周热点-文本生成中的扩散模型- Mercury Coder
一、背景知识
在人工智能领域,文本生成模型一直是研究的热点。传统的大型语言模型多采用自回归架构,从左到右逐个预测下一个标记。这种模型虽然在生成连贯文本方面表现出色,但在速度上存在一定的局限性,因为它需要按顺序生成每个标记。
二、新模型的出现
Inception Labs 推出的 Mercury Coder 是一种基于扩散模型的文本生成模型,与传统自回归模型不同,它同时处理所有文本标记,通过逐步去除噪声来优化输出结果。这种创新的架构使得 Mercury Coder 在速度和性能上都有显著提升。
三、工作原理
Mercury Coder 的工作原理借鉴了图像扩散模型。在训练阶段,模型学习估计两个标记之间的转换比例,即标记 y 正确的概率与当前标记 x 正确的概率之比。通过在多个步骤中随机逐步掩盖越来越多的标记来添加噪声。在推理阶段,模型从被掩盖的标记开始,通过多个步骤将其还原,每一步根据估计的转换比例来改变每个标记。
四、实验结果与优势
实验结果表明,Mercury Coder 在速度上具有明显优势。其小型和微型版本比同类小型编码模型快 3.5 到 18 倍。在 Nvidia H100 图形处理单元上,Mercury Coder 小型版本每秒生成 737 个标记,微型版本每秒生成 1109 个标记,远超其他模型。在性能方面,Mercury Coder 在多个基准测试中表现出色,与多个竞争对手相比具有竞争力。
五、行业意义与未来展望
文本扩散模型的出现为文本生成领域带来了新的可能性。它们不仅在速度上超越了自回归模型,还有望进一步加速文本生成,为长文本的快速生成、智能体和推理过程的加速提供新的解决方案。随着技术的不断进步,文本扩散模型可能会从图像生成的改进中受益,推动整个自然语言处理领域的发展。