当前位置：首页 > article >正文

DataWhale 大语言模型 - 长上下文模型和新型架构

article 2025/3/17 19:19:55

本课程围绕中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》书籍展开，覆盖大语言模型训练与使用的全流程，从预训练到微调与对齐，从使用技术到评测应用，帮助学员全面掌握大语言模型的核心技术。并且，课程内容基于大量的代码实战与讲解，通过实际项目与案例，学员能将理论知识应用于真实场景，提升解决实际问题的能力。

课程地址：https://www.datawhale.cn/learn/summary/107

赵鑫教授团队：http://aibox.ruc.edu.cn/

视频课程地址：《大语言模型》2.3 长上下文模型和新型架构_哔哩哔哩_bilibili

长上下文模型是指能够处理和理解长序列文本的神经网络模型。由于传统的循环神经网络（RNN）和长短时记忆网络（LSTM）等模型在处理长序列时存在梯度消失和内存限制等问题，研究人员开发了多种新型架构来克服这些挑战。以下是一些新型长上下文模型的架构：

1. Transformer模型

自注意力机制（Self-Attention）：Transformer模型通过自注意力机制来同时处理序列中的所有单词，而不是像RNN那样依次处理。这有助于模型捕捉长距离依赖关系。

位置编码（Positional Encoding）：为了保留序列中单词的位置信息，Transformer模型引入了位置编码。

2. Transformer-XL

段级重复注意力（Segment-Level Recurrence）：Transformer-XL通过利用相邻段落之间的重复注意力来处理长文本，从而减少了计算量和内存需求。

相对位置编码（Relative Positional Encoding）：相对于原始Transformer的绝对位置编码，Transformer-XL使用相对位置编码，这使得模型能够更好地处理长序列。

3. Compressive Transformer

记忆压缩（Memory Compression）：Compressive Transformer通过压缩过去的上下文信息来减少内存使用，同时保留关键信息。

4. Longformer

全局和局部自注意力（Global and Local Self-Attention）：Longformer结合了全局自注意力和局部自注意力，全局注意力用于处理序列中的关键部分，而局部注意力则用于处理更广泛的上下文。

5. Big Bird

稀疏注意力（Sparse Attention）：Big Bird使用了多种类型的注意力机制，包括稀疏注意力，以处理长序列而不会显著增加计算复杂度。

6. Reformer

可逆层（Reversible Layers）：Reformer通过使用可逆层来减少内存使用，因为它不需要存储中间激活。

局部敏感哈希（Locality Sensitive Hashing, LSH）：Reformer使用LSH来高效地计算长序列中的自注意力。

7. Performer

随机特征方法（Random Feature Methods）：Performer利用随机特征方法来近似自注意力，从而将计算复杂度从二次降低到线性。

8. GPT-3和Switch Transformer

稀疏激活（Sparse Activation）：GPT-3和Switch Transformer等模型通过仅在序列的子集上激活注意力机制来处理长文本，这有助于减少计算和内存需求。

这些新型架构各有特点，它们通过不同的技术手段来提高模型处理长上下文的能力。随着研究的深入，未来可能会有更多创新的模型架构被提出，以更好地解决长文本处理的问题。

http://www.kler.cn/a/588745.html

相关文章：

排序算法——堆排序（四）

C++|构造函数和析构函数

java自带日志系统介绍（JUL）以及和Log4j 2、Logback、SLF4J不同日志工具的对比

leetcode日记（99）不同的子序列

PyTorch使用-张量的创建

CSS 知识点总结１

【软考-架构】7、系统配置与性能评价

CAD球体密堆积3D插件V2.0

SpringBoot手动注册定时任务

ActiveMQ监听器在MQ重启后不再监听问题

Pytorch：Dataset的加载

百度贴吧IP和ID是什么意思？怎么查看

NPU、边缘计算与算力都是什么啊？

[leetcode] 面试经典 150 题——篇3：滑动窗口

一分钟了解深度学习

Lisp语言的网络管理

利用Java爬虫根据关键词获取商品列表：实战指南

一份C#的笔试题及答案

【NLP】 4. NLP项目流程与上下文窗口大小参数的影响

Kafka可视化工具KafkaTool工具的使用