图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记
文章目录
- 一、RAG流程
- 二、提示工程 VS 微调 VS RAG
- 三、全量微调 VS LoRA微调
- 四、微调 VS RAG 使用场景
- 四、GraphRAG
- 五、TopK VS TopP
- 七、RLHF
- 八、自注意力机制(Self-Attention)
一、RAG流程
RAG实战中难以解决的问题点:
- 如何读取文档
- 如何分块
- 如何进行词嵌入编码成向量的形式
- 用户的问题的理解与词嵌入编码
- 如何在向量数据库中根据问题向量检索知识向量
- 检索到的结果排序
- 根据【结合问题和检索结果context】构建提示工程
- 将7给大模型,给多大的大模型?给哪个大模型?等等等。。。
- 产出的回答response给用户
二、提示工程 VS 微调 VS RAG
三、全量微调 VS LoRA微调
- LoRA论文:LoRA: Low-Rank Adaptation of Large Language Models
Rank对应到视频里的k, k越小需要训练的参数就越少。 - Transformer的参数主要由很多矩阵来构成,比如multi-head attention里的矩阵,还有FFN里的矩阵等; 当我们使用LoRA的时候,可以选择性地对某一些矩阵进行改变,这部分可以在config里面进行设置。
- 矩阵的乘法:要保证维度的一致性,比如一个矩阵W是M乘N的,那这时候A必须是M