当前位置：首页 > article >正文

RAG优化:python实现基于问题生成（扩展语义表示、优化检索粒度和提升上下文关联性）的文档增强RAG

article 2025/3/28 9:15:19

基于问题生成的文档增强RAG通过扩展语义表示、优化检索粒度和提升上下文关联性，解决了传统RAG在复杂场景下的局限性。尽管需要权衡预处理成本和模型质量，但其在精度、鲁棒性和扩展性上的优势，使其成为实际应用中值得优先考虑的方案。对于算法工程师，核心挑战在于设计高效的问题生成策略和优化嵌入匹配算法，以实现最佳的性能-资源平衡。
注意：
- 1 大家可以提前https://studio.nebius.com/注册一个api，然后获取一个api key,免费1刀，
其他平台薅羊毛也可以，很多可以免费薅羊毛！下文的结果是基于"BAAI/bge-en-icl"
- 2 请提前下载数据
- 3 提前准备好你的环境
- 4 本地嵌入模型搭建 基于本地的模型进行语义嵌入，可以利用FlagEmbedding,可以好好学习下，量大的话api的嵌入还是比较贵的哦

pip install -U pymupdf openai

文章目录

背景知识
- - 1. **提升检索精度：解决语义匹配的多样性问题**
  - 2. **增强生成回答的上下文关联性**
  - 3. **降低对文档结构的依赖**
  - 4. **支持多模态和多轮对话场景**
  - 5. **平衡计算效率与效果**
  - 6. **验证与实验支持**
动手实现问题生成的文档增强RAG
- 环境设置
- 从PDF文件中提取文本
- 对提取的文本进行分块
- 设置OpenAI API客户端
- 为文本块生成问题
- 为文本创建嵌入
- 构建简单的向量存储
- 使用问题增强处理文档
- 提取和处理文档
- 执行语义搜索
- 在增强向量存储上运行查询
- 生成响应的上下文
- 基于检索到的块生成响应
- 生成并显示响应
- 评估AI响应
- 运行评估