Exploring Large Language Models for Knowledge Graph Completion
文章目录
- 题目
- 摘要
- 简介
- 相关工作
- 方法
- 实验
- 结论
- 局限性
- 例子
题目
探索用于知识图谱补全的大型语言模型
论文地址:https://arxiv.org/abs/2308.13916
项目地址: https://github.com/yao8839836/kg-llm
摘要
知识图谱在许多人工智能任务中发挥着至关重要的作用,但它们经常面临不完整的问题。在本研究中,我们探索利用大型语言模型 (LLM) 来完成知识图谱。我们将知识图中的三元组视为文本序列,并引入一个称为知识图谱 LLM (KGLLM) 的创新框架来对这些三元组进行建模。我们的技术使用三元组的实体和关系描述作为提示,并利用响应进行预测。在各种基准知识图谱上的实验表明,我们的方法在三元组分类和关系预测等任务中达到了最先进的性能。我们还发现,微调相对较小的模型(例如 LLaMA-7B、ChatGLM6B)的表现优于最近的 ChatGPT 和 GPT-4。
简介
大型知识图谱 (KG),如 FreeBase (Bollacker 等人,2008)、YAGO (Suchanek 等人,2007) 和 WordNet (Miller,1995),为许多关键的 AI 任务提供了强大的基础,包括语义搜索、推荐 (Zhang 等人,2016) 和问答 (Cui 等人,2017)。
KG 通常是多关系图,实体为节点,关系为边。每条边都被描绘成一个三元组 (头实体、关系、尾实体)(缩写为 (h, r, t)),表示两个实体之间的关系,例如 (史蒂夫·乔布斯,创立,Apple Inc.)。尽管知识图谱非常有效,但它仍然不完整。这个问题导致了知识图谱补全的挑战,旨在评估知识图中不存在的三元组的合理性。
大量研究致力于知识图谱补全。一种流行的方法是知识图谱嵌入 (Wang et al, 2017)。然而,大多数知识图谱嵌入模型仅仅依赖于观察到的三元组事实的结构信息,从而导致知识图谱稀疏性的问题。许多研究整合了文本信息来增强知识表示 (Socher et al, 2013; Xie et al, 2016; Xiao et al, 2017; Wang and Li, 2016; Xu et al, 2017; An et al, 2018)。我们之前的工作 KG-BERT (Yao et al, 2019) 首先采用预训练语言模型 BERT (Devlin et al, 2019) 来编码先验知识和上下文信息。最近的几项研究(Wang et al, 2021, 2022; Lovelace and Rose, 2022; Youn and Tagkopoulos, 2023)在效率和性能方面扩展了 KG-BERT 模型,但这些研究中使用的模型相对较小。
最近,大型语言模型(Zhao et al, 2023)如 ChatGPT 和 GPT-4(OpenAI, 2023)引起了广泛关注。研究人员发现,扩展预训练的语言模型通常可以提高下游任务的模型容量。这些大型模型表现出与 BERT 等小型模型不同的行为,并在解决一系列复杂任务方面表现出令人惊讶的能力。
在本研究中,我们提出了一种使用大型语言模型进行知识图谱补全的新方法。具体而言,我们将实体、关系和三元组视为文本序列,并将知识图谱补全建模为序列到序列的问题。我们使用开放式 LLM(LLaMA(Touvron 等人,2023)和 ChatGLM(Du 等人,2022))对这些序列执行指令调整,以预测三元组或候选实体/关系的合理性。该方法在多个 KG 完成任务中取得了更好的性能。我们的源代码可在以下位置获得:https://github.com/yao8839836/kg-llm。我们的贡献总结如下:
- 我们提出了一种用于知识图谱完成的新语言建模方法。据我们所知,这是第一项系统地研究大型语言模型的研究用于 KG 补全任务。
- 在多个基准测试中的结果表明,我们的方法在三元组分类和关系预测方面取得了最佳效果。
我们还发现,对相对较小的模型(例如 LLaMA-7B、ChatGLM-6B)进行微调可以胜过最近的 ChatGPT 和 GPT-4。
相关工作
知识图谱补全 (Wang et al, 2017) 和 (Ji et al, 2021) 对知识图谱补全技术进行了全面的综述。根据这些技术对三元组 (h, r, t) 的评分函数,它们可分为两类:平移距离模型(如 TransE)(Bordes et al, 2013)和语义匹配模型(如 DistMult)(Yang et al, 2015)。卷积神经网络在知识图谱补全方面也表现出了良好的效果 (Dettmers et al, 2018; Nguyen et al, 2018; Nathani et al, 2019)。
上述方法仅使用三元组中的结构信息来执行知识图谱补全。然而,结合各种类型的外部信息,如实体类型、逻辑规则和文本描述,可以提高性能 (Wang et al, 2017; Ji et al, 2021)。对于文本描述,Socher et al (2013) 最初通过对实体名称中的词嵌入进行平均来表示实体,这些嵌入是从外部语料库中学习到的。
Wang et al (2014a) 建议通过将 Wikipedia 锚点与实体名称对齐,将实体和单词嵌入到同一个向量空间中。Xie et al (2016) 使用卷积神经网络 (CNN) 对实体描述中的词序列进行编码。这方面也有许多研究(Xiao et al, 2017; Wang and Li, 2016; Xu et al, 2017; An et al, 2018)。Yao et al (2019) 提出了 KG-BERT,它使用预训练语言模型 (PLM) 改进了上述方法。
最近,Wang et al (2021, 2022);Lovelace and Rose (2022) 将 KG-BERT 中的交叉编码器扩展为双编码器,从而提高了性能和推理效率。与这项工作类似,KGT5 (Saxena et al, 2022) 和 KG-S2S (Chen et al, 2022) 将 KG 补全视为序列到序列任务。然而,这些研究中使用的预训练语言模型相对较小。
与这些方法相比,我们的方法利用了更强大的大型语言模型,上下文学习、指令遵循和逐步推理等小模型中不存在的新兴能力。这些能力对 KG 补全任务很有帮助。具有 KG 补全的 LLM 最近,Zhao 等人(2023)对 LLM 进行了全面的调查,将知识补全描述为 LLM 的一项基本评估任务。两项密切相关的研究(Xie et al, 2023; Zhu et al, 2023)在 KG 中的链接预测任务上评估了 ChatGPT 和 GPT-4。我们的研究受到这些工作的启发,但我们进一步为 KG 补全提供了更全面的结果,并对三个任务进行了指令调整。
方法
知识图谱补全任务 在本章中,我们描述了知识图谱补全中的三个任务:三重分类、关系预测和实体(链接)预测,以及如何将它们转换为简单的提示问题,以便 LLM 完成任务。整个过程如图 1 所示。三重分类。给定一个三元组 (h, r, t),任务是将其分类为正确或不正确。例如,给定三元组 <Steve Jobs, founding, Apple Inc.>,任务是将其分类为正确。提示格式将是“这是真的吗:Steve Jobs 创立了 Apple Inc.?”。而 LLM 的理想输出将是“是的,这是真的。” 关系预测。给定一个头实体和一个尾实体,任务是预测它们之间的关系。例如,给定头实体“Steve Jobs”和尾实体“Apple Inc.”,任务是预测它们的关系是“成立”。
提示格式将是“Steve Jobs 和 Apple Inc. 之间的关系是什么?请从以下选项中选择您的答案:出生于 | 成立 | 是公民 | . . . . . | 效力于。”而期望的答案将是“Steve Jobs 创立了 Apple Inc.。” 实体(链接)预测。给定一个头实体和一个关系,任务是预测与头实体相关的尾实体。给定一个尾实体和一个关系,任务是预测头实体。例如,给定头实体“史蒂夫·乔布斯”和关系“创立”,任务是预测尾实体“苹果公司”。询问尾实体的提示形式将是“史蒂夫·乔布斯创立”实体和“什么/谁/何时/何地/为什么创立了苹果公司?”来询问头实体。理想的回答应该是“史蒂夫·乔布斯创立了苹果公司。”
将 LLM 转换为 KG(KG-LLM)的指令 为了将 LLM 与 KG 三元组对齐,我们引入了 KG-LLM,该指令将预训练的 LLM 转换为使用特定事实问答提示范式处理 KG 数据。具体来说,我们使用 KG 中训练三元组的提示和响应对两个开放式 LLM 进行了微调:使用 Ptuning v2(Liu et al, 2021)的 ChatGLM-6B(Du et al, 2022)和使用 LoRA(Hu et al, 2021)的 LLaMA(版本 1 和 2)(Touvron et al, 2023)。我们将微调后的模型命名为 KG-ChatGLM-6B 和 KG-LLaMA(7B 和 13B)。我们还将结构信息纳入训练和测试指令中。具体来说,对于实体预测任务,我们为给定实体采样 K = 5 个邻近实体(不包括目标实体),并告知模型,如附录中所述。
图 1:用于知识图谱(KG)补全的大型语言模型(LLM)图示。
实验
数据集和设置 我们在四个广泛使用的基准 KG 数据集上进行了实验:WN11 (Socher et al, 2013)、FB13 (Socher et al, 2013)、WN18RR 和 YAGO310 (Dettmers et al, 2018)。表 1 提供了我们使用的所有数据集的统计数据。我们使用了相同的 entity 和 relationship 文本描述如 (Yao et al, 2019)。由于 GPT-4 的访问限制,我们从 FB13 和 YAGO3-10 中随机选择了 100 个测试示例进行评估,我们将子集命名为 FB13-100 和 YAGO3-10-100。
表 2:不同方法的三重分类准确率(百分比)。引用的基准结果来自相应论文。
表 3:不同 LLM 在 FB13 的 100 个测试实例上的三重分类准确率
我们将 KG-LLM 与多种 KG 嵌入方法进行了比较:TransE 及其扩展 TransH (Wang et al, 2014b)、TransD (Ji et al, 2015)、TransR (Lin et al, 2015)、TransG (Xiao et al, 2016) 和 TranSparse (Ji et al, 2016)、Dist-Mult 及其扩展 DistMult-HRS (Zhang et al, 2018)。神经张量网络 NTN (Socher et al, 2013)。CNN 模型:ConvKB (Nguyen et al, 2018)。语境化 KG 嵌入:DOLORES (Wang et al, 2018)。带有文本信息的 KG 嵌入:TEKE (Wang and Li, 2016)、DKRL (Xie et al, 2016) (BERT 编码器)、AATE (An et al, 2018)。预保存的语言模型:KG-BERT (Yao et al, 2019)、StAR (Wang et al, 2021)、KGT5 (Saxena et al, 2022) 和 KGLM (Youn and Tagkopoulos, 2023)。我们还与 ChatGPT 和 GPT-4 进行了比较。
对于 ChatGLM-6B 的指令调整和推理,我们使用了其公共实现中的默认参数设置。对于 LLaMA,我们使用 Transformers Python 库中的实现。更详细的设置可以在我们的代码中找到。对于 KG 完成模型,我们使用其原始论文中的结果或使用其实现中的默认配置重现结果。对于 KGT5,我们使用我们的提示和响应进行训练,其他设置与其实现相同。我们将我们设计的提示输入到 GPT-4 和 ChatGPT 的 Web 界面以获得结果。
结果表 2 显示了 WN11 和 FB13 上的三重分类准确度得分。如果基本事实为真且响应包含肯定词,如“是”和“是”,或者标签为假且响应包含否定词,如“否”/“否”/“不”/“不”,我们将响应标记为正确。我们发现 LLaMA-7B 和 LLaMA-13B 在 WN11 和 FB13 上的表现都很差。然而,当被指示处理 KG 数据时,KGLLaMA 与 LLaMA 相比显示出显着的改进。KG-LLaMA2-13B 在两个 KG 数据集上获得了最高的准确度得分。表 3 展示了不同 LLM 在 FB13 的 100 个测试实例上的准确度得分。我们手动将不同 LLM 的响应标记为正确或错误。我们发现 KG-LLaMA 表现良好,得分高于 ChatGPT 并与 GPT-4 持平。
表 4:不同方法的实体(链接)预测 Hits@1。带有引用的基线结果来自相应论文。
表 5:关系预测 Hits@1 分数。
表 4 展示了各种预训练语言模型在 WN18RR 和 YAGO310 上的链接预测命中率@1 分数。分数是头实体和尾实体的平均值。对于 LLM,如果响应包含标签词,则认为响应正确。结果表明,我们的范式取得了有希望的结果,因为 KGLLaMA 由于指令转换而显示出显着的改进。 结合结构信息也可以大大改善结果。 表 5 表明 KG-LLaMA-7B 在 YAGO3-10 上产生了最佳关系预测命中率@1,甚至比 GPT-4 更好。 KG-ChatGLM-6B 也显示出更好的结果。 这表明指令转换导致 LLM 更有效地提取存储在模型参数中的知识。
表 6:不同 LLM 的示例输出。第一行取自 FB13-100,第二行取自 YAGO3-10-100。
表 6 说明了给定相同输入时 LLM 和 KG-LLM 之间的响应差异。 我们发现原始模型的答案并不令人满意,而指令调整可以教会模型像训练三元组一样回答并更加了解事实。 KG-LLM 表现良好的主要原因是:1)。与较小的预训练语言模型相比,LLM 包含更多的一般知识。 2)。指令调整填补了 LLM 中预训练权重和 KG 三元组描述之间的空白。
结论
在本文中,我们提出了一种新颖的知识图谱补全方法 KG-LLM。我们的方法在三重分类等知识图谱补全任务中取得了 SOTA 性能分类和关系预测。我们计划将我们的 KG-LLM 作为知识增强型语言模型应用于其他 NLP 任务。此外,我们将探索更有效的 LLM 快速工程。
局限性
虽然我们的方法在使用 LLM 完成 KG 方面已经显示出良好的结果,但它目前缺乏处理缺少实体和关系的文本名称或描述的 KG 的能力。此外,我们还没有充分利用高阶 KG 结构信息,这有可能显着改善结果,特别是在实体预测任务中。
例子
示例输入来自 YAGO3-10 的 LLM 关系预测示例输入:“Sergio Padt 和 Jong Ajax 之间是什么关系?请从以下选项中选择您的答案:以…而闻名 | 是…的公民 | 有货币 | 有孩子 | 与之打交道 | 有学术顾问 | 有性别 | 为其写音乐 | 演过 | 死于… | 有首都 | 在…工作 | 居住在… | 隶属于 | 有音乐角色 | 位于… | 发生在… | 有官方语言 | 创造 | 获过奖 | 影响 | 是…的政治家 | 与之有联系 | 拥有 | 毕业于 | 出生于| 是…的领导者 | 出口 | 感兴趣 | 参与 | 导演 | 进口 | 编辑 | 有邻居 | 有网站 | 嫁给 | 为…效力。”来自 YAGO3-10 的 LLM 实体预测的两个示例输入具有结构信息:“给出 Joseph Bologna 的邻居:特兰西瓦尼亚 6-5000(1985 年电影)|博因顿海滩俱乐部|艾美奖|男性|罪恶(电视迷你剧)。
完成事实:Joseph Bologna 出演”和“什么/谁/何时/何地/为什么与阿森纳足球俱乐部有关联?阿森纳足球俱乐部的邻居:Darragh Ryan|Leslie Jones(足球运动员)|Andrew Devine|Gilles Grimandi|Ray Kennedy。”。