当前位置：首页 > article >正文

玩转大语言模型——使用graphRAG+Ollama构建知识图谱

article 2025/1/17 13:48:56

系列文章目录

玩转大语言模型——ollama导入huggingface下载的模型
玩转大语言模型——langchain调用ollama视觉多模态语言模型

文章目录

系列文章目录
前言
下载和安装
- 用下载项目的方式下载并安装
- 用pip方式下载并安装
生成知识图谱
- 初始化文件夹
- 修改模型配置
- 修改知识库生成配置
- 创建索引
搜索

前言

GraphRAG是微软开发并开源的一种图基检索增强生成（Graph-based Retrieval Augmented Generation）框架。GraphRAG结合了知识图谱（Knowledge Graph）和大型语言模型（LLM）的技术优势，旨在提升信息处理和问答能力。其基本原理在于，通过知识图谱从非结构化文本中提取结构化信息，并利用大型语言模型的生成能力，为用户提供准确、全面的回答。在本篇中将介绍如何使用GraphRAG结合大模型构建知识图谱。

下载和安装

下载过程分为两种，一种是下载项目，另外一种是直接使用pip下载，两种用法最后的效果是一致的，如果不需要修改源码，可以选择pip方式下载，这样比较方便。但在本篇中，两种都会提到，读者可以根据自己喜好选择。

用下载项目的方式下载并安装

下载
项目地址：https://github.com/microsoft/graphrag
在这里插入图片描述
为了方便大家下载，这里把git下载方式直接放到这里，直接执行就好。
安装

git clone https://github.com/microsoft/graphrag.git

切换到graphrag的下载目录，配置好虚拟环境之后，在命令行执行以下命令安装poetry资源包管理工具及相关依赖.

pip install poetry 
poetry install

用pip方式下载并安装

没错，用pip方式下载只需要执行一个命令行就可以了

pip install graphrag

生成知识图谱

初始化文件夹

首先在项目文件夹下新建一个文件夹，笔者新建的文件夹为./ragtest，如果是用项目方式下载，直接在项目下新建，如果是使用pip方式下载的，新建一个项目在新建的项目里新建文件夹。
再在./ragtest文件夹下新建一个input文件夹，将要生成知识图谱的文件放到input文件夹中。注意只能是txt文件，编码格式必须为 utf-8。

然后在命令行执行以下命令

graphrag init --root ./ragtest

执行命令后会生成配置文件settings.yaml和提示词模板prompts

修改模型配置

在修改之前我们首先需要下载相关模型，在本篇中使用的是Ollama
使用Ollama下载语言模型mistral和编码模型nomic-embed-text

ollama pull mistral
ollama pull nomic-embed-text

下载完可以使用ollama list查看一下有没有下载成功

不过当前的模型并不能直接拿来使用，我们需要修改一下，不如可能会出现一些奇怪的错误，笔者遇到的问题是在生成entities时识别不到entity。

ollama show --modelfile mistral:latest > Modelfile

打开Modelfile文件，在PARAMETER后面这里添加配置。

PARAMETER num_ctx 10000

然后使用ollama根据配置创建新的模型

ollama create mistral:10k -f Modelfile

修改知识库生成配置

因为我们构建知识库的过程中需要使用到大语言模型和embedding模型，所有需要将设置修改为我们所使用的模型。
打开初始化文件目录，笔者的目录是./ragtest/settings.yaml，修改以下两部分，将llm.model修改为mistral:10k，将llm.api_base修改为http://localhost:11434/v1，将embeddings.llm.model修改为nomic-embed-text，将embeddings.api_base修改为http://localhost:11434/v1

llm:
  api_key: ${GRAPHRAG_API_KEY}
  type: openai_chat # or azure_openai_chat
  model: mistral:10k
  model_supports_json: false # recommended if this is available for your model.
  # max_tokens: 4000
  # request_timeout: 180.0
  api_base: http://localhost:11434/v1


embeddings:
  ## parallelization: override the global parallelization settings for embeddings
  async_mode: threaded # or asyncio
  llm:
    api_key: ${GRAPHRAG_API_KEY}
    type: openai_embedding # or azure_openai_embedding
    model: nomic-embed-text
    api_base:  http://localhost:11434/v1

创建索引

构建索引的过程就是构建知识图谱的过程，同样的，读者需要将笔者的路径替换为自己的路径。

graphrag index --root ./ragtest

如果运行显示如下说明创建成功
在这里插入图片描述

搜索

查询分为局部搜索（Local Search）和全局搜索（Global Search）。当用户的问题需要理解输入文档中提到的特定实体，需要详细了解某个实体及其相关信息时，局部搜索非常有效。而全局搜索在跨数据集进行信息总结上要优于局部搜索。
局部搜索

graphrag query --root ./ragtest --method local --query "要查询的问题"

全局搜索

graphrag query --root ./ragtest --method global --query "主要内容是什么"

查看全文

http://www.kler.cn/a/506483.html

具身导航如何利用取之不尽的网络视频资源！RoomTour3D：基于几何感知的视频-指令训练调优

从前端视角看设计模式之创建型模式篇

数据结构之双链表（C语言）

【Rust练习】28.use and pub

Vue3使用vue-count-to数字滚动模块报错解决方案

ElasticSearch|ES|架构介绍|原理浅析

Linux Top 命令 load average 指标解读

正式开源，Doris Operator 支持高效 Kubernetes 容器化部署方案

JS宏进阶: 工厂函数与构造函数

【深度学习】PyTorch ：调用残差网络(ResNet)

nginx反向代理http 和 https(案例)

域名劫持是怎么回事？怎么解决？

docker安装和测试redis步骤

8.BMS SOC的算法总结

【20250115】Nature子刊：柔性生物传感与深度学习结合的上肢运动增强外骨骼机器人...

【Rust自学】12.4. 重构 Pt.2：错误处理

酷柚易汛ERP 2025-01-16系统升级日志

【C++ 类和对象进阶篇】—— 逻辑森林的灵动精灵，舞动类与对象的奇幻圆舞曲

elrond32

QT跨平台应用程序开发框架（3）—— 信号和槽

【深度学习】关键技术-优化算法（Optimization Algorithms）详解与代码示例

shell练习（3）

SQL-leetcode—626. 换座位

opencv_图像处理_去噪声_采用中值滤波

设计模式相关面试

php审计1-extract函数变量覆盖