当前位置: 首页 > article >正文

DataWhale 大语言模型 - 长上下文模型和新型架构

  本课程围绕中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》书籍展开,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。

课程地址:https://www.datawhale.cn/learn/summary/107

赵鑫教授团队:http://aibox.ruc.edu.cn/

视频课程地址:《大语言模型》2.3 长上下文模型和新型架构_哔哩哔哩_bilibili

长上下文模型是指能够处理和理解长序列文本的神经网络模型。由于传统的循环神经网络(RNN)和长短时记忆网络(LSTM)等模型在处理长序列时存在梯度消失和内存限制等问题,研究人员开发了多种新型架构来克服这些挑战。以下是一些新型长上下文模型的架构:

1. Transformer模型

自注意力机制(Self-Attention):Transformer模型通过自注意力机制来同时处理序列中的所有单词,而不是像RNN那样依次处理。这有助于模型捕捉长距离依赖关系。

位置编码(Positional Encoding):为了保留序列中单词的位置信息,Transformer模型引入了位置编码。

2. Transformer-XL

段级重复注意力(Segment-Level Recurrence):Transformer-XL通过利用相邻段落之间的重复注意力来处理长文本,从而减少了计算量和内存需求。

相对位置编码(Relative Positional Encoding):相对于原始Transformer的绝对位置编码,Transformer-XL使用相对位置编码,这使得模型能够更好地处理长序列。

3. Compressive Transformer

记忆压缩(Memory Compression):Compressive Transformer通过压缩过去的上下文信息来减少内存使用,同时保留关键信息。

4. Longformer

全局和局部自注意力(Global and Local Self-Attention):Longformer结合了全局自注意力和局部自注意力,全局注意力用于处理序列中的关键部分,而局部注意力则用于处理更广泛的上下文。

5. Big Bird

稀疏注意力(Sparse Attention):Big Bird使用了多种类型的注意力机制,包括稀疏注意力,以处理长序列而不会显著增加计算复杂度。

6. Reformer

可逆层(Reversible Layers):Reformer通过使用可逆层来减少内存使用,因为它不需要存储中间激活。

局部敏感哈希(Locality Sensitive Hashing, LSH):Reformer使用LSH来高效地计算长序列中的自注意力。

7. Performer

随机特征方法(Random Feature Methods):Performer利用随机特征方法来近似自注意力,从而将计算复杂度从二次降低到线性。

8. GPT-3和Switch Transformer

稀疏激活(Sparse Activation):GPT-3和Switch Transformer等模型通过仅在序列的子集上激活注意力机制来处理长文本,这有助于减少计算和内存需求。

这些新型架构各有特点,它们通过不同的技术手段来提高模型处理长上下文的能力。随着研究的深入,未来可能会有更多创新的模型架构被提出,以更好地解决长文本处理的问题。


http://www.kler.cn/a/588745.html

相关文章:

  • 排序算法——堆排序(四)
  • C++|构造函数和析构函数
  • java自带日志系统介绍(JUL)以及和Log4j 2、Logback、SLF4J不同日志工具的对比
  • leetcode日记(99)不同的子序列
  • PyTorch使用-张量的创建
  • CSS 知识点总结1
  • 【软考-架构】7、系统配置与性能评价
  • CAD球体密堆积3D插件V2.0
  • SpringBoot手动注册定时任务
  • ActiveMQ监听器在MQ重启后不再监听问题
  • Pytorch:Dataset的加载
  • 百度贴吧IP和ID是什么意思?怎么查看
  • NPU、边缘计算与算力都是什么啊?
  • [leetcode] 面试经典 150 题——篇3:滑动窗口
  • 一分钟了解深度学习
  • Lisp语言的网络管理
  • 利用Java爬虫根据关键词获取商品列表:实战指南
  • 一份C#的笔试题及答案
  • 【NLP】 4. NLP项目流程与上下文窗口大小参数的影响
  • Kafka可视化工具KafkaTool工具的使用