OceanBase接入DeepSeek,AI落地改写行业规则
📢📢📢📣📣📣
作者:IT邦德
中国DBA联盟(ACDU)成员,10余年DBA工作经验
Oracle、PostgreSQL ACE
CSDN博客专家及B站知名UP主,全网粉丝10万+
擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复,
安装迁移,性能优化、故障应急处理
当硅谷用天价API收割市场时,中国技术圈已悄然完成一场颠覆性创新,国产分布式数据库OceanBase与AI大模型DeepSeek的深度联姻,正以低存储成本以及高效率推理的组合拳,重新定义企业级知识库的标准。
DBA与IT工程师们,这场技术革命将如何改写你们的运维剧本?接下里小编就教你在OceanBase上用DeepSeek搭建企业私有化知识库。
1.前提条件
1.可用的事务型(MySQL)OB集群实例或者共享实例。
2.没有可用的实例,可以开通 OB Cloud 云数据库的免费试用实例。
3.安装 Python 3.9 及以上版本 和相应 pip。
4.安装 Poetry
python3 -m pip install poetry
2.申请OB Cloud 云数据库
https://www.oceanbase.com/free-trial
可以免费申请OB Cloud 云数据库哦,后期个人学习后者参加培训都是可以的,注册并登录账号,填写相关信息,开通实例,等待创建完成。
3.获取数据库连接信息
进入实例工作台页面。
单击 连接,选择 获取连接串。
在弹出框中选择 使用公共网络。
获取访问地址,选择 添加当前浏览器IP地址。
填写数据库相关信息,复制连接串。
4.注册硅基流动
作为集合顶尖大模型的一站式云服务平台,SiliconCloud 致力于为开发者提供更快、更全面、体验更丝滑的模型 API,助力开发者和企业聚焦产品创新,无须担心产品大规模推广所带来的高昂算力成本。
https://cloud.siliconflow.cn/
5.安装依赖
5.1 克隆代码仓库
git clone https://gitee.com/oceanbase-devhub/ai-workshop-2024
cd ai-workshop-2024
5.2 安装依赖
poetry install
5.3 设置环境变量
cp .env.example .env
更新 .env 文件中的值,特别是 API_KEY 和数据库连接信息
# 请填写获取到的 API_KEY
API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
LLM_MODEL="deepseek-ai/DeepSeek-V3"
LLM_BASE_URL="https://api.siliconflow.cn/v1"
HF_ENDPOINT=https://hf-mirror.com
BGE_MODEL_PATH=BAAI/bge-m3
OLLAMA_URL=
OLLAMA_TOKEN=
# OPENAI_EMBEDDING_API_KEY 一项请填写和 API_KEY 一样的值
OPENAI_EMBEDDING_API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
OPENAI_EMBEDDING_BASE_URL="https://api.siliconflow.cn/v1/embeddings"
OPENAI_EMBEDDING_MODEL=BAAI/bge-m3
UI_LANG="zh"
# 请根据 OBCloud 实例的连接信息更新下面的变量
DB_HOST="127.0.0.1"
DB_PORT="2881"
DB_USER="root@test"
DB_NAME="test"
DB_PASSWORD=""
5.4 连接数据库
您可使用我们准备好的脚本来尝试连接数据库,以确保数据库相关的环境变量设置成功
bash utils/connect_db.sh
如果顺利进入 MySQL 连接当中,则验证了环境变量设置成功
6.准备文档语料
6.1 克隆并处理文档仓库
git clone --single-branch --branch V4.3.3 https://github.com/oceanbase/oceanbase-doc.git doc_repos/oceanbase-doc
如果您访问 Github 仓库速度较慢,可以使用以下命令克隆 Gitee 的镜像版本
git clone --single-branch --branch V4.3.4 https://gitee.com/oceanbase-devhub/oceanbase-doc.git doc_repos/oceanbase-doc
6.2 文档格式标准化
将标题转换为标准 Markdown 格式
poetry run python convert_headings.py \
doc_repos/oceanbase-doc/zh-CN \
6.3 文档转换为向量
生成文档向量和元数据
poetry run python embed_docs.py
--doc_base doc_repos/oceanbase-doc/zh-CN/640.ob-vector-search
7.启动 UI 聊天界面
执行以下命令启动聊天界面:
poetry run streamlit run --server.runOnSave false chat_ui.py
访问终端中显示的 URL 来打开聊天机器人应用界面
You can now view your Streamlit app in your browser.
Local URL: http://localhost:8501
Network URL: http://172.xxx.xxx.xxx:8501
这是您可以从浏览器访问的 URL
8.应用展示
总结
当OceanBase的遇见DeepSeek的智能推理,企业知识库正从被动存储进化为自进化数字大脑,
在这场数据库+AI的化学反应中,OceanBase与DeepSeek的组合不仅解决了成本与安全的二元对立,更开创了存储即智能的新范式。
对于每一位DBA和IT架构师而言,这既是优化技术栈的黄金机遇,更是重新定义自身价值的战略窗口。