使用图结构增强RAG架构,一文详解LightRAG
摘要
检索增强生成(RAG)系统通过整合外部知识源,提升了大规模语言模型(LLMs)的性能,使得系统能够根据用户需求提供更加准确且符合上下文的响应。然而,现有的RAG系统存在一些显著的局限性,包括依赖扁平化数据表示和缺乏足够的上下文感知,这可能导致回答碎片化,无法捕捉复杂的相互依赖关系。为了解决这些问题,我们提出了LightRAG,它将图结构引入文本索引和检索过程中。这一创新框架采用了双层检索系统,从低层次和高层次两个维度增强了全面的信息检索能力。此外,图结构与向量表示的结合促进了相关实体及其关系的高效检索,显著提升了响应速度,同时保持了上下文的相关性。通过增量更新算法,LightRAG能够确保新数据的及时集成,使得系统在快速变化的数据环境中依然高效且具有响应能力。大量实验验证表明,与现有方法相比,LightRAG在检索准确性和效率上都取得了显著的改进。我们已将LightRAG开源,并提供了链接:https://github.com/HKUDS/LightRAG。
介绍
检索增强生成(RAG)系统已被开发用于通过整合外部知识源来增强大规模语言模型(LLMs)性能。这种创新的整合使得LLMs能够生成更加准确且符合上下文的回答,显著提升了它们在实际应用中的效用。通过适应特定领域知识,RAG系统确保提供的信息不仅与用户需求相关,而且更加个性化。此外,它们还能够访问最新的信息,这在快速发展的领域中尤为重要。分块(Chunking)在促进检索增强生成过程中发挥了重要作用。通过将庞大的外部文本语料库拆分成更小、更易管理的片段,分块极大地提高了信息检索的准确性。这种方法使得相似度检索更加精准,确保检索到的内容与用户查询直接相关。
然而,现有的RAG系统存在一些限制,妨碍了其性能。首先,许多方法依赖扁平化的数据表示,限制了它们基于实体之间复杂关系进行理解和信息检索的能力。其次,这些系统通常缺乏足够的上下文感知能力,难以维持各个实体及其相互关系的连贯性,从而导致回答可能无法全面解决用户的问题。例如,假设有用户询问:“电动汽车的兴起如何影响城市空气质量和公共交通基础设施?”现有的RAG方法可能会检索出关于电动汽车、空气污染和公共交通挑战的独立文档,但它们难以将这些信息综合成一个连贯的答案,可能无法解释电动汽车的普及如何改善空气质量,进而影响公共交通规划。因此,用户可能会收到一个支离破碎的答案,无法充分捕捉这些主题之间的复杂相互依赖关系。
为了解决这些问题,我们提出将图结构引入文本索引和相关信息检索中。图结构在表示不同实体之间的相互依赖关系方面尤其有效,能够提供更细致的关系理解。将基于图的知识结构集成到系统中,有助于将来自多个来源的信息综合成连贯且富有上下文的回答。尽管如此,开发一个快速且可扩展的图驱动RAG系统,能够高效处理不同查询量依然是至关重要的。在本工作中,我们通过解决以下三个关键挑战,成功实现了一个有效且高效的RAG系统:
- 全面的信息检索:确保全面的信息检索,能够从所有文档中捕获相互依赖实体的完整上下文。
- 增强的检索效率:通过图结构提升检索效率,大幅降低响应时间。
- 对新数据的快速适应:支持对新数据的快速适应,确保系统在动态环境中保持相关性。
针对这些挑战,我们提出了LightRAG,一种将图结构文本索引范式与双层检索框架无缝结合的模型。这一创新方法增强了系统捕获实体间复杂相互依赖关系的能力,从而生成更加连贯且富有上下文的回答。LightRAG采用高效的双层检索策略:低层检索,聚焦于具体实体及其关系的精确信息;高层检索,涵盖更广泛的主题和领域。通过结合详细的低层检索和概念性的高层检索,LightRAG能够有效地适应各种查询,确保用户能够获得相关且全面的个性化回应。此外,图结构与向量表示的结合,使得我们的框架能够高效地检索相关实体和关系,并通过构建的知识图谱中的结构化信息增强检索结果的全面性。
总结本工作的主要贡献:
-
一般性方面:我们强调了开发图驱动的RAG系统的重要性,以克服现有方法的局限性。通过将图结构集成到文本索引中,我们能够有效地表示实体之间的复杂相互依赖关系,促进对这些关系的细致理解,从而生成连贯且富有上下文的回答。
-
方法论:为了实现高效且适应性强的RAG系统,我们提出了LightRAG,该系统将双层检索范式与图增强文本索引相结合。这一方法能够捕获低层和高层信息,实现全面且高效的检索。通过避免重建整个索引,LightRAG减少了计算成本并加速了适应过程,其增量更新算法确保了新数据的及时集成,使系统在动态环境中保持高效性。
-
实验结果:我们进行了广泛的实验,以评估LightRAG与现有RAG模型的效果对比。这些评估集中在多个关键维度,包括检索准确性、模型消融、响应效率和对新信息的适应能力。实验结果表明,与基准方法相比,LightRAG在多个方面取得了显著改进。
什么是RAG?
检索增强生成(RAG)将用户查询与从外部知识数据库获取的相关文档集成在一起,包含两个基本要素:检索组件和生成组件。
-
检索组件负责从外部知识数据库中获取相关文档或信息。它基于输入查询识别并检索最相关的数据。
-
检索过程之后,生成组件利用检索到的信息生成连贯的、符合上下文的响应。它利用语言模型的能力来产生有意义的输出。
从形式上讲,这个RAG框架(用 𝓜 表示)可以定义如下:
M = ( G , R = ( φ , ψ ) ) , M ( q ; D ) = G ( q , ψ ( q ; D ^ ) ) , D ^ = φ ( D ) \mathcal{M} = (\mathcal{G}, \mathcal{R} = (\varphi,\psi)), \quad \mathcal{M}(q;\mathcal{D}) = \mathcal{G}(q,\psi(q;\hat{\mathcal{D}})), \quad \hat{\mathcal{D}} = \varphi(\mathcal{D}) M=(G,R=(φ,ψ)),M(q;D)=G(q,ψ(q;D^)),D^=φ(D)
在这个框架中,𝓖 和 𝓡 分别代表生成模块和检索模块,而 q 表示输入查询,D 指外部数据库。检索模块 𝓡 包含两个关键功能:
i) 数据索引器 φ ( ⋅ ) φ(·) φ(⋅):负责基于外部数据库 D 构建特定的数据结构 D̂。
ii) 数据检索器 ψ ( ⋅ ) ψ(·) ψ(⋅):通过将查询与索引数据进行比较来获取相关文档,这些文档也被称为"相关文档"。生成模型 𝓖(·) 通过利用 ψ ( ⋅ ) ψ(·) ψ(⋅) 检索的信息以及初始查询 q q q,高效地生成高质量、符合上下文的响应。
在这项工作中,我们关注几个对高效且有效的检索增强生成(RAG)系统至关重要的要点:
全面信息检索:索引函数 φ ( ⋅ ) φ(·) φ(⋅) 必须擅长提取全局信息,这对提升模型回答查询的能力至关重要。
高效低成本检索:索引数据结构 D̂ 必须支持快速且成本效益高的检索,以有效处理大量查询。
快速适应数据变化:能够快速有效地调整数据结构以整合来自外部知识库的新信息,这对确保系统在不断变化的信息环境中保持最新和相关性至关重要。
LightRAG架构
基于图的文本索引
图增强实体和关系抽取。我们的 LightRAG 通过将文档分割成更小、更易管理的片段来增强检索系统。这种策略允许快速识别和访问相关信息,而无需分析整个文档。接下来,我们利用 LLM 来识别和提取各种实体(例如,名称、日期、位置和事件)以及它们之间的关系。通过这个过程收集的信息将用于创建一个全面的知识图谱,突出整个文档集合中的连接和见解。我们将这个图生成模块形式化表示如下:
D ^ = ( V , E ) = Dedupe ∘ Prof ( V , E ) , V , E = ⋃ D i ∈ D Recog ( D i ) \hat{\mathcal{D}} = (\mathcal{V}, \mathcal{E}) = \text{Dedupe} \circ \text{Prof}(\mathcal{V}, \mathcal{E}), \quad \mathcal{V}, \mathcal{E} = \bigcup_{\mathcal{D}_i \in \mathcal{D}}\text{Recog}(\mathcal{D}_i) D^=(V,E)=Dedupe∘Prof(V,E),V,E=Di∈D⋃Recog(Di)
其中 D ^ \hat{\mathcal{D}} D^ 表示生成的知识图谱。为了生成这些数据,我们对原始文本文档 D i \mathcal{D}_i Di 应用三个主要处理步骤。这些步骤利用 LLM 进行文本分析和处理。提示模板和这部分的具体设置可以在附录 7.3.2 中找到。我们的图基文本索引范式中使用的函数描述如下:
提取实体和关系。 R ( ⋅ ) R(\cdot) R(⋅):这个函数提示 LLM 识别文本数据中的实体(节点)及其关系(边)。例如,它可以从文本"心脏病专家评估症状以识别潜在的心脏问题"中提取实体如"心脏病专家"和"心脏病",以及关系如"心脏病专家诊断心脏病"。为了提高效率,原始文本 D \mathcal{D} D 被分割成多个块 D i \mathcal{D}_i Di。
LLM 分析生成键值对。 P ( ⋅ ) P(\cdot) P(⋅):我们采用基于 LLM 的分析函数 P ( ⋅ ) P(\cdot) P(⋅),为 V \mathcal{V} V 中的每个实体节点和 E \mathcal{E} E 中的关系边生成文本键值对 ( K , V ) (K, V) (K,V)。每个索引键是一个单词或短语,可实现高效检索,而相应的值是一段总结外部数据相关片段的文本段落,用于辅助文本生成。实体使用其名称作为唯一索引键,而关系可能具有多个从 LLM 增强中获得的索引键,这些索引键包含来自相连实体的全局主题。
去重优化图操作。 D ( ⋅ ) D(\cdot) D(⋅):最后,我们实现了一个去重函数 D ( ⋅ ) D(\cdot) D(⋅),用于识别和合并来自原始文本 D i \mathcal{D}_i Di 不同片段的相同实体和关系。这个过程通过最小化图的大小,有效降低了在 D ^ \hat{\mathcal{D}} D^ 上进行图操作的开销,从而实现更高效的数据处理。
我们的 LightRAG 通过其基于图的文本索引范式提供了两个优势。
首先,全面的信息理解。构建的图结构能够从多跳子图中提取全局信息,大大增强了 LightRAG 处理跨越多个文档片段的复杂查询的能力。
其次,增强的检索性能。从图中派生的键值数据结构经过优化,可实现快速和精确的检索。这为现有方法中常用的不太准确的嵌入匹配方法和低效的块遍历技术提供了更优替代方案。
快速适应增量知识库。为了在确保准确和相关响应的同时高效适应数据变化,我们的 LightRAG 可以增量更新知识库,无需对整个外部数据库进行完整的重新处理。对于新文档 D ′ D' D′,增量更新算法使用与之前相同的基于图的索引步骤 ϕ \phi ϕ 进行处理,得到 D ′ ^ = ( V ′ ^ , E ′ ^ ) \hat{D'} = (\hat{V'}, \hat{E'}) D′^=(V′^,E′^)。随后,LightRAG 通过取节点集 V ^ \hat{V} V^ 和 V ′ ^ \hat{V'} V′^ 的并集,以及边集 E ^ \hat{E} E^ 和 E ′ ^ \hat{E'} E′^ 的并集,将新的图数据与原始数据结合。
两个关键目标指导我们实现增量知识库的快速适应方法:
新数据的无缝集成。通过对新信息应用一致的方法,增量更新模块使 LightRAG 能够在不破坏现有图结构的情况下集成新的外部数据库。这种方法保持了已建立连接的完整性,确保历史数据保持可访问,同时在没有冲突或冗余的情况下丰富图的内容。
降低计算开销。通过消除重建整个索引图的需求,这种方法减少了计算开销并促进了新数据的快速同化。因此,LightRAG 保持系统准确性,提供最新信息,并节约资源,确保用户获得及时更新并提高整体 RAG 效果。
双层检索范式
LightRAG:基于双层检索范式的知识图谱信息检索
为了从特定文档片段及其复杂的相互依赖关系中检索相关信息,LightRAG提出了在详细和抽象两个层次上生成查询关键字。
特定查询。这些查询侧重细节,通常指向图中的特定实体,需要精确检索与特定节点或边相关的信息。例如,特定查询可能是:“谁写了《傲慢与偏见》?”
抽象查询。相反,抽象查询更具概念性,涉及更广泛的主题、总结或总览,通常不直接与特定实体相关。抽象查询的例子是:“人工智能如何影响现代教育?”
为了适应多种查询类型,LightRAG在双层检索范式中采用了两种不同的检索策略。这样可以确保既能有效回答具体查询,又能处理抽象查询,使得系统能够提供根据用户需求定制的相关响应。
低级检索。这一层主要专注于检索特定实体及其相关属性或关系。此层的查询注重细节,旨在提取图中某些节点或边的精确信息。
高级检索。这一层解决更广泛的主题和总览性问题。此类查询跨多个相关实体和关系聚合信息,提供对更高层次概念和总结的见解,而非具体细节。
结合图与向量进行高效检索
通过将图结构与向量表示结合,模型能够深入理解实体之间的相互关系。这种协同作用使得检索算法能够有效地利用局部和全局关键字,简化搜索过程并提高结果的相关性。
(i) 查询关键字提取。对于给定查询 q q q,LightRAG的检索算法首先提取局部查询关键字 k ( l ) k(l) k(l) 和全局查询关键字 k ( g ) k(g) k(g)。
(ii) 关键字匹配。该算法使用高效的向量数据库,将局部查询关键字与候选实体进行匹配,将全局查询关键字与与全局关键字相关的关系进行匹配。
(iii) 融入高阶相关性。为了增强查询的高阶相关性,LightRAG进一步在检索到的图元素的局部子图中收集邻接节点。该过程涉及集合: { v i ∣ v i ∈ V ∧ ( v i ∈ N v ∨ v i ∈ N e ) } \{v_i | v_i \in V \land (v_i \in N_v \lor v_i \in N_e)\} {vi∣vi∈V∧(vi∈Nv∨vi∈Ne)}其中, N v N_v Nv 和 N e N_e Ne 分别表示检索到的节点 v v v 和边 e e e 的一跳邻接节点。
这种双层检索范式不仅通过关键字匹配有效地检索相关实体和关系,而且通过集成构建的知识图谱中的相关结构信息,增强了结果的全面性。
检索增强答案生成
检索信息的利用。利用检索到的信息 ψ ( q ; D ^ ) \psi(q; \hat{\mathcal{D}}) ψ(q;D^),我们的 LightRAG 采用通用 LLM 基于收集的数据生成答案。这些数据包括由分析函数 P ( ⋅ ) P(\cdot) P(⋅) 产生的相关实体和关系的连接值 V V V。它包含名称、实体和关系的描述,以及来自原始文本的摘录。
上下文集成和答案生成。通过将查询与这种多源文本统一起来,LLM 生成针对用户需求的信息丰富的答案,确保与查询意图保持一致。这种方法通过将上下文和查询整合到 LLM 模型中来简化答案生成过程。
LightRAG框架的复杂度分析
在本节中,我们分析了我们提出的LightRAG框架的复杂度,该框架可以分为两个主要部分。
第一部分是基于图的索引阶段。在此阶段,我们使用大语言模型(LLM)从每个文本块中提取实体和关系。因此,LLM需要被调用的次数为 总令牌数 每个块的大小 \frac{总令牌数}{每个块的大小} 每个块的大小总令牌数。重要的是,整个过程中没有额外的开销,这使得我们的方法在处理新文本更新时具有很高的效率。
第二部分是基于图的检索阶段。对于每个查询,我们首先利用大语言模型(LLM)生成相关关键字。与当前的检索增强生成(RAG)系统类似,我们的检索机制依赖于基于向量的搜索。然而,区别于传统RAG通过检索文本块的方式,我们集中在检索实体和关系上。与GraphRAG使用的基于社区遍历的方法相比,这种方法显著减少了检索开销。
实验
我们在基准数据上进行了实证评估,以评估所提出的LightRAG框架的有效性,并通过以下研究问题进行探讨:
- (RQ1): LightRAG在生成性能方面与现有的RAG基准方法相比如何?
- (RQ2): 双层检索和基于图的索引如何提升LightRAG的生成质量?
- (RQ3): 通过不同场景下的案例示例,LightRAG展现了哪些具体优势?
- (RQ4): LightRAG的成本是多少,并且它对数据变化的适应性如何?
实验设置
评估数据集
为了全面分析LightRAG,我们从UltraDomain基准数据集中选择了四个数据集(Qian等,2024)。UltraDomain数据源自428本大学教科书,涵盖了18个不同领域,包括农业、社会科学和人文学科。我们选择了农业、计算机科学(CS)、法律和混合(Mix)数据集。每个数据集包含的令牌数量在60万到500万之间,详细信息见表4。以下是我们实验中使用的四个领域的具体介绍:
-
农业:该领域聚焦于农业实践,涵盖了包括养蜂、蜂箱管理、作物生产和病虫害防治等多个主题。
-
计算机科学(CS):该领域聚焦于计算机科学,涉及数据科学和软件工程的关键领域,特别突出机器学习和大数据处理,内容包括推荐系统、分类算法和基于Spark的实时分析。
-
法律:该领域集中于企业法律实践,涉及企业重组、法律协议、法规合规和治理,尤其聚焦于法律和金融领域。
-
混合(Mixed):该领域包含了丰富的文学、传记和哲学文本,跨越广泛的学科,包括文化、历史和哲学研究。
问题生成
为了评估RAG系统在高层次推理任务中的有效性,我们将每个数据集中的所有文本内容整合为上下文,并采用Edge等人提出的生成方法。具体而言,我们指示大语言模型(LLM)生成五个RAG用户,每个用户对应五个任务。每个生成的用户都附有一段描述,详细介绍其专业领域和激发提问活动的动机。每个用户任务也有相应描述,强调用户在与RAG系统交互时的潜在意图。对于每个用户-任务组合,LLM生成五个问题,这些问题需要理解整个语料库。总的来说,每个数据集将生成125个问题。
基准方法
LightRAG与以下最先进的方法进行对比,覆盖所有数据集:
-
Naive RAG(Gao等,2023):该模型作为现有RAG系统的标准基准。它将原始文本分割成片段,并使用文本嵌入将它们存储在向量数据库中。对于查询,Naive RAG生成向量化表示,直接基于相似度最高的表示来检索文本片段,确保高效且直接的匹配。
-
RQ-RAG(Chan等,2024):该方法利用LLM将输入查询分解成多个子查询。通过使用重写、分解和消歧义等显式技术,这些子查询旨在提高检索准确性。
-
HyDE(Gao等,2022):该方法利用LLM根据输入查询生成一个假设文档。生成的文档随后用于检索相关的文本片段,进而用来构建最终的答案。
-
GraphRAG(Edge等,2024):这是一种图增强的RAG系统,利用LLM从文本中提取实体和关系,并将它们表示为节点和边。该方法为这些元素生成相应的描述,将节点聚合成社区,并生成社区报告以捕捉全局信息。在处理高层次查询时,GraphRAG通过遍历这些社区来检索更全面的信息。
实施和评估细节
在我们的实验中,我们使用nano向量数据库进行向量数据管理和访问。对于LightRAG中的所有LLM操作,我们默认使用GPT-4o-mini。为了确保一致性,所有数据集的片段大小均设置为1200。此外,GraphRAG和LightRAG的gleaning参数都固定为1。
对于许多RAG查询,特别是涉及复杂高层次语义的查询,定义地面真相(ground truth)面临显著挑战。为了解决这一问题,我们基于现有的工作(Edge等,2024)并采用基于LLM的多维比较方法。我们使用强大的LLM,具体来说是GPT-4o-mini,来对比每个基准方法与我们的LightRAG。总的来说,我们使用四个评估维度,包括:
- 全面性:答案是否彻底地涵盖了问题的所有方面和细节?
- 多样性:答案在提供不同观点和相关见解方面的丰富性和变化性如何?
- 赋能性:答案在多大程度上帮助读者理解该主题,并做出有根据的判断?
- 总体:该维度评估前三个标准的综合表现,以确定最佳的整体答案。
LLM直接对比两个答案在每个维度上的表现,并为每个标准选择更优的答案。在确定了三个维度的获胜答案后,LLM结合这些结果来确定最终的优胜答案。为了确保公平评估并减少答案展示顺序可能引起的偏差,我们交替展示每个答案的顺序。我们根据这一方法计算获胜率,并最终得出评估结果。
LightRAG与现有RAG方法的对比(RQ1)
我们对LightRAG与各基准方法在不同评估维度和数据集上的表现进行了比较,结果如表1所示。基于这些结果,我们得出了以下结论:
图增强RAG系统在大规模语料库中的优势
在处理大规模令牌数量和需要深入理解数据集上下文的复杂查询时,图增强的RAG系统(如LightRAG和GraphRAG)始终优于纯基于文本块的检索方法(如NaiveRAG、HyDE和RQ-RAG)。随着数据集规模的增大,这一性能差距尤为明显。例如,在最大的法律数据集(Legal)中,基准方法的胜率仅约为20%,远不及LightRAG的表现。这一趋势突显了图增强RAG系统在捕捉大规模语料库中的复杂语义依赖关系方面的优势,从而有助于更全面地理解知识,提升泛化性能。
LightRAG在回答多样性方面的提升
与各种基准方法相比,LightRAG在多样性指标上表现出显著优势,特别是在较大的法律数据集(Legal)中。它在这一维度上的持续领先,突显了LightRAG在生成更广泛回答方面的效果,尤其在内容多样性至关重要的场景中。我们将这种优势归因于LightRAG的双层检索范式,它通过从低层次和高层次维度全面检索信息,确保能够捕捉到更多的上下文。该方法有效利用基于图的文本索引,在回应查询时持续保持对完整上下文的捕捉。
LightRAG相较于GraphRAG的优势
虽然LightRAG和GraphRAG都采用了基于图的检索机制,但在较大的数据集和复杂语言上下文中,LightRAG始终优于GraphRAG。在农业、计算机科学(CS)和法律(Legal)数据集(每个数据集包含数百万个令牌)中,LightRAG表现出明显优势,显著超越了GraphRAG,突显了其在不同环境下对信息的全面理解能力。
提升的回答多样性:通过结合低层次检索特定实体与高层次检索更广泛主题,LightRAG提升了回答的多样性。这一双层检索机制有效地应对了详细和抽象查询,确保了对信息的全面掌握。
复杂查询的处理
这一方法在处理需要多角度观点的复杂查询时尤为有用。通过同时访问具体细节和整体主题,LightRAG能够灵活应对涉及相互关联主题的复杂查询,提供与上下文相关的回答。
消融实验(RQ2)
我们还进行了消融实验,评估双层检索范式的影响以及图基文本索引在LightRAG中的有效性。结果如表2所示。
双层检索范式的有效性
我们首先分析低层次和高层次检索范式的效果。我们将两种消融模型(每个模型省略一个模块)与LightRAG进行比较,覆盖四个数据集。以下是我们对不同变体的关键观察:
-
仅低层次检索:-High变体移除了高层次检索,导致几乎所有数据集和指标的性能显著下降。这一下降主要是由于过于强调特定信息,过度关注实体及其直接邻居。虽然这种方法能够更深入地探索直接相关的实体,但在处理需要全面洞察的复杂查询时,它难以收集足够的信息。
-
仅高层次检索:-Low变体通过利用实体间的关系而非专注于特定实体来优先捕获更广泛的内容。该方法在全面性上有显著优势,能够收集更多的广泛和多样的信息。然而,权衡是,它在特定实体的深入分析上有所减少,这可能限制其提供高度详细洞察的能力。因此,这种仅高层次检索的方法可能在需要精确、详细答案的任务中表现不佳。
-
混合模式:混合模式,或LightRAG的完整版本,结合了低层次和高层次检索方法的优点。它在检索过程中同时检索广泛的关系,并对特定实体进行深入探索。这种双层检索方法确保了检索过程的广度和分析的深度,提供了数据的全面视角。因此,LightRAG在多个维度上实现了平衡的性能。
语义图在RAG中的表现
我们在检索过程中去除了原始文本的使用。出人意料的是, resulting variant -Origin 在所有四个数据集上的性能并没有显著下降。在某些情况下,这个变体甚至表现得更好(例如在农业和混合数据集上)。我们将这一现象归因于图基索引过程中有效地提取了关键信息,这为回答查询提供了足够的上下文。此外,原始文本通常包含无关信息,可能会在回答中引入噪声。
案例研究(RQ3)
为了清晰地比较基准方法和我们的LightRAG,我们在表3中呈现了具体的案例示例,包括来自竞争性基准方法GraphRAG和我们的LightRAG框架对机器学习问题的回答。在此实例中,LightRAG在LLM评审员评估的所有维度上都优于其他方法,包括全面性、多样性、赋能性和整体质量。我们的关键观察如下:
i) 全面性
显著地,LightRAG涵盖了更广泛的机器学习指标,展示了其在有效发现相关信息方面的全面性。这突显了我们图基索引范式的优势,该范式在精确提取实体和关系以及LLM分析中表现出色。
ii) 多样性与赋能性
此外,LightRAG不仅提供了更多样的信息,而且提供了更具赋能性的内容。这一成功归功于LightRAG的分层检索范式,该范式结合了低层次检索对相关实体的深入探索,增强了赋能性,同时通过高层次检索提供更广泛的探索,提升了答案的多样性。通过这两种方法的结合,LightRAG能够捕获更全面的全球视角,进而提升了RAG性能。
模型成本与适应性分析(RQ4)
我们从两个关键角度比较了LightRAG与表现最优的基准方法GraphRAG的成本:首先,我们检查了索引和检索过程中的令牌和API调用次数;其次,我们分析了在动态环境中处理数据变化时的相关指标。以下是对法律数据集的评估结果,如图2所示。在此背景下,Textract表示实体和关系提取的令牌开销,Cmax表示每次API调用允许的最大令牌数,Cextract表示提取所需的API调用次数。
在检索阶段,GraphRAG生成了1,399个社区,其中在本实验中实际用于检索的有610个二级社区。每个社区报告平均包含1,000个令牌,总令牌消耗为610,000个令牌(610个社区 × 每个社区1,000个令牌)。此外,GraphRAG需要逐个遍历每个社区,导致数百次API调用,显著增加了检索开销。相比之下,LightRAG优化了这一过程,仅使用不到100个令牌进行关键词生成和检索,整个过程只需要一次API调用。通过这一检索机制,LightRAG有效地将图结构与向量化表示结合进行信息检索,从而避免了在处理大量信息时的额外开销。
在增量数据更新阶段,该阶段旨在应对动态现实场景中的数据变化,两个模型在实体和关系提取的开销上表现相似。然而,GraphRAG在管理新增数据方面显示出了显著的低效。当引入与法律数据集同样大小的新数据集时,GraphRAG必须解构现有的社区结构以纳入新实体和关系,随后进行完全重建。这一过程需要大量的令牌开销,大约每个社区报告需消耗5,000个令牌。考虑到1,399个社区,GraphRAG需要约1,399 × 2 × 5,000个令牌来重建原始社区和新社区报告,这是一笔巨大的开销,突显了其低效性。相比之下,LightRAG通过无缝集成新提取的实体和关系到现有图中,避免了完全重建的需求。这种方法在增量更新时显著降低了开销,展示了其卓越的效率和成本效益。
总结
这项工作通过集成基于图的索引方法引入了检索增强生成(RAG)的进步,提高了信息检索的效率和理解力。 LightRAG 利用全面的知识图来促进快速且相关的文档检索,从而能够更深入地理解复杂的查询。其双层检索范式允许提取特定和抽象信息,满足不同的用户需求。此外,LightRAG 的无缝增量更新功能可确保系统保持最新状态并响应新信息,从而长期保持其有效性。总体而言,LightRAG 在效率和有效性方面均表现出色,显着提高了信息检索和生成的速度和质量,同时降低了 LLM 推理成本。