当前位置: 首页 > article >正文

NLP语言模型训练里的特殊向量

1. CLS 向量和 DEC 向量的区别及训练方式

(1) CLS 向量与 DEC 向量是否都是特殊 token?

CLS 向量([CLS] token)和 DEC 向量(Decoder Input token)都是特殊的 token,但它们出现在不同类型的 NLP 模型中,并承担不同的功能。

  1. CLS 向量([CLS] token)

    • 主要出现在 BERT 类的双向 Transformer 编码器模型中,比如 BERT、RoBERTa、ALBERT 等。
    • 用于表示整个输入序列的全局信息,常用于分类任务(如情感分析、文本匹配)。
    • 具体机制:
      • 在 BERT 预训练阶段,[CLS] token 被加在输入文本的最前面。
      • 经过 Transformer 编码层后,输出的 CLS 向量聚合了整个文本的信息,最终送入分类头进行任务训练。
      • 例如,在情感分类任务中,CLS 向量会经过全连接层和 softmax 变换,输出正负类别概率。
  2. DEC 向量(Decoder Input token)

    • 主要出现在 Encoder-Decoder 结构的模型中,比如 Transformer(用于机器翻译)、T5(用于文本生成)等。
    • 充当解码器的初始输入,通常由 <bos>(begin-of-sequence) 或者 <s>(start token)表示。
    • 具体机制:
      • 训练时,Decoder 需要一个起始 token(例如 <bos>),然后依赖 Encoder 的输出和已生成的部分自回归地预测下一个 token。
      • 生成过程中,每个时间步的 DEC 向量都会影响下一个 token 的生成。

(2) CLS 向量和 DEC 向量如何初始化?

  • CLS 向量初始化
    在 BERT 预训练时,[CLS] token 的初始向量与普通词向量一样,随机初始化,并在训练过程中通过梯度下降不断优化。

  • DEC 向量初始化
    在 Transformer 类模型中,DEC token 也通常是随机初始化的,但是不同的模型可能采用不同的方法:

    • 在 T5 这种预训练模型中,Decoder 的输入采用的是预训练时学习到的 <s> token 。
    • 在机器翻译任务中,Decoder 可能使用源语言的 <bos> 作为起点。

(3) CLS 向量和 DEC 向量如何参与训练?

  • CLS 向量的训练方式:

    • 在 BERT 预训练任务(如 Masked Language Model 和 Next Sentence Prediction)中,CLS 向量是计算句子级别任务损失的关键部分。
    • 在下游任务中(如文本分类),CLS 向量会经过额外的线性层,用于预测类别标签。
  • DEC 向量的训练方式:

    • 参与自回归训练,即在训练时,Decoder 只能够看到之前的词,而预测当前时间步的目标词(Teacher Forcing 机制)。
    • 目标是最大化正确序列的似然,使得 DEC 向量能够学习如何有效指导解码器生成合理的输出。

(4) CLS 向量和 DEC 向量本质上是否相同?

从数学本质上看,它们都是高维向量(embedding),但在模型设计上:

  • CLS 向量用于编码文本全局语义,属于 Encoder 端的产物。
  • DEC 向量用于自回归地指导序列生成,属于 Decoder 端的输入。
  • 区别主要体现在训练方式、任务目标和语义作用上。

2. 分类损失(如交叉熵) vs. 语言模型损失(如负对数似然)

这两种损失都用于 NLP 任务,但应用场景不同。

(1) 分类损失(Cross Entropy, CE)

  • 适用任务: 用于文本分类、命名实体识别(NER)、情感分析等任务。

  • 计算方式:

    • 先计算模型输出的类别概率分布:
      p i = softmax ( z i ) p_i = \text{softmax}(z_i) pi=softmax(zi)
    • 再计算真实类别 ( y ) 与预测类别 ( p ) 之间的交叉熵:
      L = − ∑ i y i log ⁡ p i L = -\sum_{i} y_i \log p_i L=iyilogpi
  • 特点:

    • 仅在整个输入上计算一个类别概率,而不涉及逐 token 预测。

(2) 语言模型损失(Negative Log Likelihood, NLL)

  • 适用任务: 用于文本生成、机器翻译、问答任务(如 GPT、T5)。

  • 计算方式:

    • 语言模型在训练时,目标是最大化正确序列的似然概率,其损失形式为:
      L = − ∑ t log ⁡ p ( y t ∣ y < t , x ) L = -\sum_{t} \log p(y_t | y_{<t}, x) L=tlogp(yty<t,x)
    • 这里,( y_t ) 是第 ( t ) 个时间步的目标词,( y_{<t} ) 代表已生成的部分,( x ) 是输入序列(如果是 Encoder-Decoder)。
  • 特点:

    • 逐 token 计算损失,关注序列的生成概率。
    • 在自回归(Auto-regressive)任务中,每个 token 预测结果依赖前面已生成的部分。

(3) 两者的主要区别

分类损失(CE)语言模型损失(NLL)
任务类型句子级别任务(分类)逐 token 预测任务(生成)
计算方式计算整个文本的类别概率计算每个 token 的预测概率
是否自回归

3. 自回归(Autoregressive, AR)

(1) 自回归的定义

自回归(Autoregressive)是一种序列建模方法,当前时间步的预测依赖于过去的输出

(2) 为什么叫“自回归”?

  • “回归” 这个术语在统计学中表示根据历史数据预测未来值。
  • “自” 指的是模型的输入来自于自己之前的预测。
  • 因此,自回归 = “使用自身过去的信息来预测未来”

(3) NLP 中的自回归模型

  • GPT(Generative Pre-trained Transformer)

    • 在第 ( t ) 个时间步,只能看到 ( y_1, y_2, \ldots, y_{t-1} ) 这些前面的 token,不能看到未来的信息。

    • 预测方式:
      p ( y t ∣ y < t ) p(y_t | y_{<t}) p(yty<t)

    • 依赖“过去的输出”来预测下一个词,典型的自回归结构。

  • BERT 不是自回归模型

    • BERT 是 双向 Transformer,训练时可以看到整个输入,因此它不是自回归模型。

(4) 自回归的应用

  • 语言模型(GPT、XLNet)
  • 机器翻译(Transformer Decoder)
  • 语音生成(WaveNet)

总结

  1. CLS 向量和 DEC 向量本质上都是向量,但用途不同

    • CLS 向量用于文本分类、全局表征;
    • DEC 向量用于解码器输入,引导文本生成。
  2. 分类损失 vs. 语言模型损失

    • 交叉熵用于整体分类;
    • 负对数似然用于逐 token 预测。
  3. 自回归(Auto-regressive)是指依赖自身过去输出进行预测,GPT 等生成模型采用这一机制。


在 NLP 任务中,<s><bos> 都是 特殊 token,但它们的使用方式略有不同,取决于具体的模型和任务。

1. <s>(Start-of-Sequence Token)

<s> 代表 序列的起始 token,在不同的模型中用途不同:

  • 在 T5 模型(Text-to-Text Transfer Transformer)中:

    • T5 是一个 Encoder-Decoder 结构的 Transformer,所有任务都被转换成文本生成任务。
    • 在 T5 的 Decoder 中,解码输入(Decoder Input)以 <s> 作为起始 token,然后逐步生成后续 token。
    • 训练时:
      输入 (Encoder Input) = "Translate English to French: I love NLP"
      目标输出 (Decoder Target) = "<s> J'aime le NLP </s>"
      
    • 预测时:
      • <s> 提供解码起点,模型基于 Encoder 的输出和 <s> 生成下一个 token。
  • 在 BART(Bidirectional and Auto-Regressive Transformer)模型中:

    • BART 也是 Encoder-Decoder 结构,用于文本填充、摘要等任务
    • <s> 用于标识句子开始,在 BART 预训练阶段,模型可能会恢复丢失的 <s> token
  • 在一些 NLP 任务中

    • <s> 也可以作为整个句子或段落的起点,类似于 [CLS](BERT 中用于分类任务的 token)。

2. <bos>(Beginning-of-Sequence Token)

<bos> 代表 序列的开始,用于 自回归(Auto-regressive)解码

  • 在机器翻译(MT)任务中

    • Transformer 结构的 Decoder 需要一个起始 token,通常用 <bos> 作为 Decoder 的输入。
    • 例如:
      源语言输入 (Encoder Input): "I love NLP"
      目标输出 (Decoder Target): "<bos> J'aime le NLP <eos>"
      
    • 在训练时,Decoder 会在 <bos> 之后一个个预测目标语言的 token,直到遇到 <eos>(end-of-sequence)。
  • 在 GPT 这样的自回归模型中

    • GPT 主要用于文本生成任务,如对话、摘要。
    • <bos> 告诉模型“文本从这里开始”,然后 GPT 依次预测下一个 token。

3. <s><bos> 的区别

Token常见用途典型模型
<s> (Start-of-Sequence)句子/段落的起点,用于 Encoder-Decoder 任务T5、BART
<bos> (Beginning-of-Sequence)自回归生成的起始 token,特别用于解码GPT、Transformer Decoder
  • 如果是 Encoder-Decoder 结构(如 T5、BART),一般使用 <s> 作为起始 token。
  • 如果是 仅 Decoder 结构(如 GPT),则使用 <bos> 作为文本生成的起始 token。

http://www.kler.cn/a/614783.html

相关文章:

  • Linux系统中应用端控制串口的基本方法
  • 数据结构----栈
  • 记录vite引入sass预编译报错error during build: [vite:css] [sass] Undefined variable.问题
  • resnet网络迁移到昇腾执行(OM上篇)
  • 基于三维数字图像相关(DIC)全场应变测量技术的基础设施结构健康监测与安全评估方法研究
  • 探索Scala基础:融合函数式与面向对象编程的强大语言
  • 【人工智能】解锁大模型潜力:Ollama 与 DeepSeek 的分布式推理与集群部署实践
  • 智慧养老线上线下联动:重构多样化养老服务的创新实践
  • 【Qt】数据库管理
  • 从零开始研发GPS接收机连载——19、自制GPS接收机的春运之旅
  • WebSocket通信的握手阶段
  • 图像数据增强教程:为目标检测任务准备数据
  • 【可视化教程】密码验证(栈)【算法竞赛】
  • 业务流程先导及流程图回顾
  • hugo+github pages 部署实验室网站
  • 用 pytorch 从零开始创建大语言模型(三):编码注意力机制
  • Ubuntu 22.04 安装向日葵远程控制
  • linux系统中fstab 各字段详细说明
  • 【初阶数据结构】线性表之双链表
  • API 请求需要证书认证? 如何在 Postman 中正确配置和使用?