深度学习-100-RAG技术之最简单的RAG系统概念和效果优化提升方向
文章目录
- 1 数据是基础
- 2 Naive RAG(最简单的RAG系统)
-
- 2.1 RAG周边技术
- 2.2 标准的RAG流程
- 2.3 RAG的潜在问题
- 2.4 如何应对RAG的问题
- 3 优化方向
-
- 3.1 原始数据创建/准备
-
- 3.1.1 易于理解的文本
- 3.1.2 提高数据质量
- 3.2 预检索优化
-
- 3.2.1 分块优化
- 3.2.2 添加元数据
- 3.2.3 选对嵌入模型
- 3.2.4 优化索引结构
- 3.3 检索优化
- 3.4 检索后优化
- 3.5 选对大模型
- 3.6 评估系统
- 4 参考附录
1 数据是基础
毫无疑问,LLM变得越来越强大,但如果我们仔细看看,真正完全依赖纯大模型的产品其实并不多。大多数情况下,大模型只是扮演一个辅助角色。那么,提升RAG性能的关键因素是什么呢?
数据质量——数据准备——数据处理。
无论是在应用程序运行期间,还是在准备原始数据时,我们都需要对数据进行处理、分类,并从中提取有用的信息,以确保结果朝着正确的方向发展。
如果我们只是坐等越来越大的模型,指望它们能解决所有难题,而不去处理数据和流程,那显然是不现实的。
2 Naive RAG(最简单的RAG系统)
RAG的核心思想是站在巨人的肩膀上,利用现有的概念和技术,并以合适的方式将它们结合起来。很多技术其实都源自搜索引擎领域。我们的目标是围绕LLM构建一个流程,为模型提供正确的数据,帮助它做出决策或总结信息。
2.1 RAG周边技术
一、CLassic ML Technique经典机器学习技术
(1)NLP自然语言处理
(2)Classification分类
(3)Regression回归
(4