当前位置: 首页 > article >正文

基于Langchain-Chatchat + ChatGLM 本地部署知识库

一、相关环境

参考链接: Github:https://github.com/chatchat-space/Langchain-Chatchat

Langchain-chatchat版本:v0.3.1

安装环境:Ubuntu:22.04,CUDA:12.1

二、搭建过程

2.1 环境配置

2.1.1 创建chatchat虚拟环境

  • 创建chatcaht虚拟环境
conda create -n chat python=3.11 -y
conda activate chat
  • 克隆仓库
git clone https://github.com/chatchat-space/Langchain-Chatchat.git
#进入目录
cd Langchain-Chatchat
  • 安装依赖
pip install "langchain-chatchat[xinference]" -U

使用模型推理框架并加载模型,这里用到的是Xinference。

【注意】为避免依赖冲突,请将 Langchain-Chatchat 和模型部署框架如 Xinference 等放在不同的 Python 虚拟环境中,比如 conda, venv, virtualenv 等。

2.1.2 创建xinference虚拟环境

  • 创建xinference虚拟环境
conda create -n xinf python=3.10 -y
conda activate xinf
  • 安装依赖
pip install "xinference[transformers]"
pip install sentence-transformers
  • 启动xinference
xinference-local --host 0.0.0.0 --port 9997

image.png

2.2 模型推理框架并加载模型(xinference)

image.png

image.png

在xinference加载模型

image.png

  • 在xinference加载本地模型

在启动 Xinference 服务后,到项目 tools/model_loaders 目录下执行

streamlit run xinference_manager.py

image.png

按照页面提示为指定模型设置本地路径即可

image.png

2.3 初始化项目配置与数据目录

打开 chatchat:

设置 Chatchat 存储配置文件和数据文件的根目录,在文件夹中新建一个chatchat_data 文件夹:

image.png

data 文件夹

# on linux or macos 
export CHATCHAT_ROOT=/path/to/chatchat_data 
# on windows 
set CHATCHAT_ROOT=/path/to/chatchat_data

若不设置该环境变量,则自动使用当前目录。

执行初始化:

chatchat init

该命令会执行以下操作:

  • 创建所有需要的数据目录
  • 复制 samples 知识库内容
  • 生成默认 yaml 配置文件

image.png

数据库中的内容

image.png

初始化成功

修改配置文件,需要根据步骤 2.2 模型推理框架并加载模型中选用的模型推理框架与加载的模型进行模型接入配置,具体参考 model_settings.yaml 中的注释。主要修改以下内容:

# 默认选用的 LLM 名称
 DEFAULT_LLM_MODEL: glm4-chat
 
 # 默认选用的 Embedding 名称
 DEFAULT_EMBEDDING_MODEL: bge-m3
 
# 将 `LLM_MODEL_CONFIG` 中 `llm_model, action_model` 的键改成对应的 LLM 模型
# 在 `MODEL_PLATFORMS` 中修改对应模型平台信息

配置知识库路径(basic_settings.yaml),这步可以不做,如果你就是用前面配置好的数据库地址。

默认知识库位于CHATCHAT_ROOT/data/knowledge_base,如果你想把知识库放在不同的位置,或者想连接现有的知识库,可以在这里修改对应目录即可。

# 知识库默认存储路径
 KB_ROOT_PATH: D:\chatchat-test\data\knowledge_base
 
 # 数据库默认存储路径。如果使用sqlite,可以直接修改DB_ROOT_PATH;如果使用其它数据库,请直接修改SQLALCHEMY_DATABASE_URI。
 DB_ROOT_PATH: D:\chatchat-test\data\knowledge_base\info.db
 
 # 知识库信息数据库连接URI
 SQLALCHEMY_DATABASE_URI: sqlite:///D:\chatchat-test\data\knowledge_base\info.db

配置知识库(kb_settings.yaml)(可选):

默认使用 FAISS 知识库,如果想连接其它类型的知识库,可以修改 和 kbs_config。

支持的数据文件类型很多,包括PDF、TXT、MP4、CSV、MD等,但是要注意放置到对应的文件夹下面:

image.png

直接将文件放在这些文件夹内即可

2.4 初始化知识库

进行知识库初始化前,请确保已经启动模型推理框架及对应 embedding 模型(也就是 Xinference 框架要启动着),且已按照上述步骤 2.3 完成模型接入配置。

chatchat kb -r

image.png

出现这个就说明已经加载好了

更多功能可以查看:

chatchat kb --help

参数说明:

  • -r, --recreate:重新创建矢量存储。如果存在此选项,则使用它。已将文档文件复制到内容文件夹,但矢量存储尚未填充或DEFAUL_VS_TYPE/DEFAUL_EMBEDING_MODEL已更改。
  • --create-table:如果不存在,则创建空表。
  • --clear-table:创建空表,或在重新创建矢量存储之前删除数据库表。
  • -u, --db-update:数据库中存在文件的矢量存储更新。如果要重新创建矢量存储,请使用此选项。文件存在于数据库中,跳过文件存在于本地文件夹。
  • -i, --incremental:本地文件夹中存在文件的增量更新矢量存储,数据库中不存在。如果您希望逐步创建矢量,请使用此选项。
  • --trim-db:删除本地数据库中不存在的文档文件夹中的文档。用于删除用户在文件浏览器中删除的文档文件。
  • --trim-folder: 删除本地文件夹中不存在的文档文件数据库。用于释放本地磁盘空间,删除未使用的文档文件。
  • -n, --kb-name TEXT:指定要操作的知识库名称。默认值为KB_ROOT_PATH中存在的所有文件夹。
  • -e, --embed-model TEXT:指定嵌入模型。
  • --import-from-db TEXT:从指定的sqlite数据库导入表。

--help:显示此消息并退出。

2.5 启动项目

chatchat start -a

image.png

三、遇见问题

pip install openai==0.28.1

http://www.kler.cn/a/525013.html

相关文章:

  • 98.1 AI量化开发:长文本AI金融智能体(Qwen-Long)对金融研报大批量处理与智能分析的实战应用
  • React Router v6配置路由守卫
  • 团体程序设计天梯赛-练习集——L1-025 正整数A+B
  • 知识库管理驱动企业知识流动与工作协同创新模式
  • Zookeeper(31)Zookeeper的事务ID(zxid)是什么?
  • 数据分析系列--③RapidMiner算子说明及数据预处理
  • 240. 搜索二维矩阵||
  • 【JavaEE】Spring(6):Mybatis(下)
  • docker安装emqx
  • 11JavaWeb——SpringBootWeb案例02
  • S4 HANA明确Tax Base Amount是否考虑现金折扣(OB69)
  • 蓝桥杯python语言基础(4)——基础数据结构(下)
  • 洛谷P11464 支配剧场
  • 深度学习框架应用开发:基于 TensorFlow 的函数求导分析
  • SpringSecurity:There is no PasswordEncoder mapped for the id “null“
  • Kotlin 委托详解
  • 新项目传到git步骤
  • 【Redis】 String 类型的介绍和常用命令
  • 大模型应用的10个架构挑战
  • 嵌入式知识点总结 Linux驱动 (二)-uboot bootloader
  • SQLServer 不允许保存更改(主键)
  • 如何写一篇高质量的提示词?
  • AI驱动内容跨媒体转换新机遇
  • 护眼好帮手:Windows显示器调节工具
  • AI时代,大厂要被重新定义
  • spring mvc 创建restapi 笔记