当前位置: 首页 > article >正文

十五、自回归(AutoRegressive)和自编码(AutoEncoding)语言模型

参考自回归语言模型(AR)和自编码语言模型(AE)

1 自回归语言模型( AR)

自回归语言模型(AR)就是根据上文内容(或下文内容)预测下一个(或前一个)可能跟随的单词,就是常说的自左向右(或自右向左)的语言模型任务,即通过前 t - 1(或后 t - 1 ) 个 tokens 来预测当前时刻 t 的 token,代表的自回归语言模型有 ELMO 和 GPT。

1.1 优点

在处理生成类自然语言处理任务时,就是从左向右的,比如文本摘要,机器翻译等,自回归语言模型天然匹配这个过程。

1.2 缺点 

该模型是单向的,只能利用上文或者下文的信息,不能同时利用上文和下文的信息。

自编码语言模型(AE

自动编码器的逻辑过程是指原始 input(设为 x)经过加权(W 和 b)、映射(Sigmoid)之后得到 y,再对 y 反向加权映射回来成为 z。通过反复迭代训练(W 和 b),使得误差函数 L(H) 最小,即尽可能保证 z 近似于 x ,即完美重构了 x。那么可以说正向权重(W 和 b)是成功的,很好的学习了 input 中的关键特征。

自动编码器过程图如下:参考自动编码器

降噪自编码器(Denoising AutoEncoder, DAE)是指当采用无监督(不需要对训练样本进行标记)的方法分层预训练深度网络的权值时,为了学习到较鲁棒的特征,可以在数据的输入层引入随机噪声。

降噪自编码器过程图如下:

自编码语言模型的名称来自于降噪自编码器(DAE),是通过上下文单词来预测被 [Mask] 的 token(这些被 [Mask] 掉的单词其实就是在输入端加入的噪音,是典型的 的思路),通俗地被称为“完形填空”,代表的自编码语言模型有 Word2Vec(CBOW)和 BERT。

2.1 优点

泛化性强,无监督不需要数据标注,可以自然地融入上下文语义信息。

2.2 缺点

  • 适用于“完形填空”式的训练策略,不适用于生成式的问题;
  • 在预训练 Pre-Training 阶段,引入独立性假设,没有考虑预测 [MASK] 之间的相关性;
  • 输入中引入 [Mask] 这一特殊标记对原始 Token 进行替换,而微调 Fine-Tuning 阶段是没有 [Mask] 标记的,导致预训练阶段和微调阶段的数据不一致。

http://www.kler.cn/a/271493.html

相关文章:

  • Java小白入门教程:内置数据类型(四类八种)和引用数据类型
  • flowable expression和json字符串中的双引号内容
  • 图论——floyd算法
  • Docker容器数据恢复
  • 面向对象设计:SOLID 原则
  • Java 知识速记:全面解析 final 关键字
  • 开源绘图工具 PlantUML 入门教程(常用于画类图、用例图、时序图等)
  • 数据清洗与预处理:打造高质量数据分析基础
  • LeetCode 395. 至少有K个重复字符的最长子串
  • RoketMQ主从搭建
  • c语言:于龙加
  • 《工厂模式(极简c++)》
  • 【 代码随想录算法训练营第二十四天 | LeetCode77. 组合 】
  • 网络编程套接字——实现简单的UDP网络程序
  • 【网络原理】TCP 协议中比较重要的一些特性(三)
  • 【LeetCode热题100】146. LRU 缓存(链表)
  • HarmonyOS(二十)——管理应用拥有的状态之LocalStorage(页面级UI状态存储)
  • Ubuntu 虚拟机安装
  • MySQL 数据库设计范式
  • openstack调整虚拟机CPU 内存 磁盘 --来自gpt
  • AI - 支持向量机算法
  • C语言——母牛的故事
  • 数据结构 之 二叉树
  • 瑞熙贝通打造智慧校园实验室安全综合管理平台
  • 鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:UIExtensionComponent (系统接口))
  • 前端框架的发展史介绍框架特点