当前位置: 首页 > article >正文

用向量数据库建立本地知识库

本实例是通过向量数据库对本地文本进行拆分,拆分后每一块文本转成向量存放到向量数据库。这样在搜索内容时,会先把问题转成向量,然后就可以根据问题向量在向量数据库里进行搜索,快速找到对应内容。本程序完全离线运行(无需网络连接),支持模型本地存储(./m3e-base)和数据本地存储(./vector_db)。可以用于企业知识库检索、法律文档查询、学术论文搜索、个人文档管理等场景。

多格式文档处理
支持格式有PDF、Word(.docx)、纯文本(.txt)、Markdown(.md)、HTML(.html)。自动识别文件类型并选择对应解析器,支持批量处理目录中的多种格式文件。

扩展支持的文件格式:

| 格式 | 扩展名 | 依赖包 |

| PDF | .pdf | pypdf |

| Word | .docx | python-docx |

| 纯文本 | .txt | - |

| Markdown | .md | unstructured |

| HTML | .html | unstructured |

文本预处理
使用递归字符拆分器智能分块(500字符/块,50字符重叠),自动剔除空白或无效文本块,自动识别文本编码格式(特别是对中文支持)。


http://www.kler.cn/a/579337.html

相关文章:

  • Unity DOTS从入门到精通之 C# Job System
  • 【Recon】CTF Web类题目主要类型
  • 全栈网络安全|渗透测试-1
  • style-your-video风格化你的视频
  • 第七课:Python反爬攻防战:Headers/IP代理与验证码
  • Vue 3 的面试题
  • 【音视频】ffmpeg音视频处理基本流程
  • numpy常用函数详解
  • TinyWebServer项目笔记——01 线程同步机制封装类
  • 基于Python的商品销量的数据分析及推荐系统
  • 【分布式】聊聊分布式id实现方案和生产经验
  • OpenManus - 无需邀请码即可实现任何创意的Manus
  • 动态 SQL 的使用
  • Python第十四课:数据可视化 | 信息炼金术
  • 嵌入式人工智能应用-第6章 人脸检测
  • Java在小米SU7 Ultra汽车中的技术赋能
  • 【芯片验证】verificationguide上的74道SystemVerilog面试题
  • 【大模型安全】安全解决方案
  • Web三件套学习笔记
  • Docker部署Ragflow(完美解决502 bad gateway)