当前位置: 首页 > article >正文

搭建个人知识库,支持Word、PDF、txt等,一般电脑也能玩。

你好,我是郭震

本地部署大模型,再构建个人知识库,跑自己的文档、数据等,有很多好处。

比如,隐私的财务数据可以借力AI大模型做总结,股票数据实时接入到大模型做数据分析,个人word文档批量读取做总结等。

本篇教程继续系列上一篇教程:自己电脑搭建个人知识库,一般电脑也能玩(支持通义千问、GPT等)。在此基础上,扩展支持PDF和txt文件的读取。

错过上篇教程的,我简单再在这里和大家回顾一下。我提出的方案基于LLM大模型+文档检索方法,具有的优势:

充分释放大模型能力,因为使用的是文档检索,而不是语义向量所以检索会更加高效,大大提升了回复效率;同时对电脑的性能要求直接降到最低,一般电脑也能玩起来了。

你需要做的前期准备

1. 准备一台8G以上内存的电脑,无显卡也问题不大;

2. 再会一点Python安装包的技能,基本就是一条命令:pip install 安装包的名字

总结来说,使用本地大模型(qwen:7b)+ 文档搜索工具(whoosh),这个方案不花一分钱,一般电脑又能玩。

整体界面和使用demo如下所示,支持多个文件加载,包括PDF,docx等word文档和txt格式,每个文件最大支持到200M:

d9340f9a2330a46d01f7b434ae6ed7f2.png

实现上面功能的代码,我已经完整放在公众号里,大家下面回复:知识库,即可领取完整代码文件:

这是第一步,通过界面加载不同类型的本地文档和数据,如下读取了:财务数据1.docx:

7824a4d6db607c9dc1d1d81bca486ce1.png

再次拖动小明收支账本.pdf到界面,加载后自动显示已处理,因为是在本地进行,并且使用了whoosh检索工具,加载速度非常快:

f2411bc2c44c0c998b99f4d621bf0df6.png

PDF读取在此使用比较常用的PyPDF2,大家只需要pip install PyPDF2安装即可使用,开源免费。

只需要下面几行代码,我们就可以读取PDF内容。

466b73cd502263d5f04000723e3b17b9.png

然后再把文档加入到whoose的索引库,代码如下所示,为后续本地检索提供基础文件数据,这就是我们的个人知识库:

500ab5fb87c6a57d486e4c0e486b1389.png

等输入「小明收支账本」关键词时,很快就能从本地知识库检索到,如下所示。此处代码使用了模糊查询,所以命中概率会大幅提升:

9d592e7b5813d4a8d3ce3d0d2816647f.png

可以看到命中文件为PDF类型,并且显示查询到的内容:

e36abae7ab45966b9664e00d6fd4d6e1.png

紧接着会自动调用大模型做文档总结分析,这里使用通义千问大模型,因为它是开源的,关于详细的部署教程,大家可以参考之前教程,链接在这里:自己电脑搭建AI大模型详细教程,支持通义千问、Llama3、接口调用等。

这是搭建个人知识库最有价值的地方,当自动检索出文档后,会自动输到大模型中,然后自动做总结分析,比较方便。同时,利用大模型的总结能力,总结还是比较全面的:

4409eff7ea39f2398d22ea034124768f.png

最后总结一下

目前代码支持的功能,包括:

1 支持多种文件:你可以加载 PDF、Word(.docx)、TXT 等格式,文件最大支持到 200M。

2 加载速度快:因为使用的是 Whoosh 检索工具,拖动文件到界面,直接秒处理。

3 大模型辅助分析:比如搜索“小明收支账本”,系统会自动检索相关内容,还能用大模型给出智能总结,堪称你的私人助理。

后面会扩展更多实用功能,欢迎关注。

以上全文2308字,8张图。如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个⭐️,谢谢你看我的文章,我们下篇再见!


http://www.kler.cn/a/472920.html

相关文章:

  • C# XPTable 带图片的增删改查(XPTable控件使用说明十三)
  • USB 驱动开发 --- Gadget 设备连接 Windows 免驱
  • MFC读写文件实例
  • Improving Language Understanding by Generative Pre-Training GPT-1详细讲解
  • Java到底是值传递还是引用传递????
  • 虚表 —— 隐藏行(简单版)
  • Vue3 el-tree-v2渲染慢的问题
  • Linux系列(二)安装Linux和Linux目录结构
  • <代码随想录> 算法训练营-2025.01.03
  • xxl-job回调执行器,发生NPE空指针异常
  • ios脚本巨魔商店多巴胺越狱基本操作教程
  • 数据库环境安装(day1)
  • 基于html5实现音乐录音播放动画源码
  • 阶梯费用计算demo
  • 超详细的 JDK环境配置步骤图文教程
  • 《C++11》右值引用深度解析:性能优化的秘密武器
  • linux安全更新zookeeper docker
  • Python创建GitHub标签的Django管理命令
  • unity TextMeshPro使用window字体的方式
  • LVGL源码(4):LVGL关于EVENT事件的响应逻辑
  • CAD批量打印可检索的PDF文件
  • Redis 性能优化:利用 MGET 和 Pipeline 提升效率
  • 软件测试的未来:如何跨越自动化到自主测试的鸿沟
  • 【深度学习系统】Lecture 4 - Automatic Differentiation
  • 左神算法基础巩固--4
  • ESP32 IDF VScode出现头文件“无法打开 源 文件 ”,并有红色下划线警告