当前位置：首页 > article >正文

一周热点-文本生成中的扩散模型- Mercury Coder

article 2025/3/9 8:32:08

一、背景知识

在人工智能领域，文本生成模型一直是研究的热点。传统的大型语言模型多采用自回归架构，从左到右逐个预测下一个标记。这种模型虽然在生成连贯文本方面表现出色，但在速度上存在一定的局限性，因为它需要按顺序生成每个标记。

二、新模型的出现

Inception Labs 推出的 Mercury Coder 是一种基于扩散模型的文本生成模型，与传统自回归模型不同，它同时处理所有文本标记，通过逐步去除噪声来优化输出结果。这种创新的架构使得 Mercury Coder 在速度和性能上都有显著提升。

三、工作原理

Mercury Coder 的工作原理借鉴了图像扩散模型。在训练阶段，模型学习估计两个标记之间的转换比例，即标记 y 正确的概率与当前标记 x 正确的概率之比。通过在多个步骤中随机逐步掩盖越来越多的标记来添加噪声。在推理阶段，模型从被掩盖的标记开始，通过多个步骤将其还原，每一步根据估计的转换比例来改变每个标记。

四、实验结果与优势

实验结果表明，Mercury Coder 在速度上具有明显优势。其小型和微型版本比同类小型编码模型快 3.5 到 18 倍。在 Nvidia H100 图形处理单元上，Mercury Coder 小型版本每秒生成 737 个标记，微型版本每秒生成 1109 个标记，远超其他模型。在性能方面，Mercury Coder 在多个基准测试中表现出色，与多个竞争对手相比具有竞争力。