当前位置: 首页 > article >正文

【AI知识点】知识图谱评分函数(Scoring Function for Knowledge Graphs)

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】


1. 评分函数的定义和作用

知识图谱评分函数(Scoring Function for Knowledge Graphs) 是知识图谱嵌入技术中的核心部分。在知识图谱中,三元组( h h h, r r r, t t t)表示两个实体 h h h (头实体)和 t t t (尾实体)通过关系 r r r 连接。评分函数的作用是为每个三元组分配一个分数,该分数反映三元组中实体与关系是否符合逻辑

  • 正例三元组:三元组是正确的,例如“比尔·盖茨创立了微软”,评分函数应给予高分
  • 负例三元组:三元组是错误的或不存在的,例如“比尔·盖茨创立了谷歌”,评分函数应给予低分

2. 评分函数的使用场景

评分函数广泛应用于以下知识图谱任务:

  • 链接预测(Link Prediction):预测知识图谱中可能缺失的关系或实体。例如,预测“某人”可能“创立了某公司”。
  • 知识补全(Knowledge Completion):自动补充知识图谱中的缺失信息,例如补全“创立了”的公司创始人。
  • 三元组分类(Triple Classification):判断某个三元组是否为正确的事实。

3. 常见的评分函数类型

评分函数通常分为两大类:基于距离的评分函数基于相似性的评分函数。不同的评分函数采用不同的方式来评估实体和关系的匹配度。

a. 基于距离的评分函数

这类评分函数的核心思想是:通过计算实体和关系嵌入向量之间的距离,来评估三元组的合理性。距离越小,表示三元组越合理。

i. TransE

TransE 是一种最简单的评分函数之一。它的基本假设是:关系可以看作从头实体到尾实体的“平移”,即对于一个三元组 ( h , r , t ) (h, r, t) (h,r,t),要求头实体和关系的向量之和接近尾实体的向量:
h + r ≈ t h + r \approx t h+rt

  • 评分函数
    f ( h , r , t ) = ∥ h + r − t ∥ 2 f(h, r, t) = \| h + r - t \|_2 f(h,r,t)=h+rt2
    其中, h h h r r r t t t 分别是头实体、关系、尾实体的嵌入向量, ∥ ⋅ ∥ 2 \| \cdot \|_2 2 L 2 L2 L2 范数(即欧氏距离)。
  • 优点:计算简单,适用于一对一关系(如“国籍”)。
  • 缺点:对于复杂关系(如一对多或多对多关系)处理效果较差。

ii. TransH

TransH 是对 TransE 的改进,解决了一些复杂关系(如一对多、多对多关系)的问题。TransH 假设每个关系 r r r 存在一个超平面,实体可以在该超平面上进行投影,使得关系映射更具表现力。

  • 评分函数
    f ( h , r , t ) = ∥ ( h − w r ⊤ h w r ) + d r − ( t − w r ⊤ t w r ) ∥ 2 f(h, r, t) = \| (h - w_r^\top h w_r) + d_r - (t - w_r^\top t w_r) \|_2 f(h,r,t)=(hwrhwr)+dr(twrtwr)2
    其中, w r w_r wr 是关系 r r r 的超平面法向量, d r d_r dr 是关系的位移向量。

iii. TransR

TransR 进一步扩展了 TransE 和 TransH,它假设实体和关系的嵌入位于不同的空间中。它引入了一个映射矩阵,将实体从实体空间映射到关系空间中。

  • 评分函数
    f ( h , r , t ) = ∥ M r h + r − M r t ∥ 2 f(h, r, t) = \| M_r h + r - M_r t \|_2 f(h,r,t)=Mrh+rMrt2
    其中, M r M_r Mr 是关系 r r r 的映射矩阵。

b. 基于相似性的评分函数

基于相似性的评分函数通过评估实体和关系的向量相似度来判断三元组的合理性。通常使用内积或其他相似性度量。

i. DistMult

DistMult 假设关系是对称的,即如果 ( h , r , t ) (h, r, t) (h,r,t) 成立,则 ( t , r , h ) (t, r, h) (t,r,h) 也成立。它的评分函数通过对实体和关系向量的元素进行逐元素乘积。

  • 评分函数
    f ( h , r , t ) = ⟨ h , r , t ⟩ = ∑ i h i ⋅ r i ⋅ t i f(h, r, t) = \langle h, r, t \rangle = \sum_i h_i \cdot r_i \cdot t_i f(h,r,t)=h,r,t=ihiriti
    其中, ⟨ h , r , t ⟩ \langle h, r, t \rangle h,r,t 是三者嵌入向量的逐元素乘积的内积。

  • 优点:简单且有效,适用于对称关系。

  • 缺点:对非对称关系(如“父亲”和“子女”)表现不佳。

ii. ComplEx

ComplEx 是对 DistMult 的扩展,它引入了复数嵌入来处理非对称关系,使得它不仅能够处理对称关系,还能够处理反对称关系。

  • 评分函数
    f ( h , r , t ) = Re ( ⟨ h , r , t ‾ ⟩ ) f(h, r, t) = \text{Re} (\langle h, r, \overline{t} \rangle) f(h,r,t)=Re(⟨h,r,t⟩)
    其中, h h h, r r r, t t t 是复数向量, t ‾ \overline{t} t t t t 的共轭复数, Re \text{Re} Re 表示取实部。

  • 优点:能够处理对称、非对称关系,表现灵活。

  • 缺点:计算复杂度相对较高。

iii. RESCAL

RESCAL 是一种基于双线性的评分函数,它使用一个关系矩阵 R r R_r Rr 来将实体向量 h h h t t t 相乘。

  • 评分函数
    f ( h , r , t ) = h ⊤ R r t f(h, r, t) = h^\top R_r t f(h,r,t)=hRrt
    其中, R r R_r Rr 是关系 r r r 的矩阵, h h h t t t 是实体的嵌入向量。

  • 优点:能够捕获复杂的关系模式。

  • 缺点:需要为每个关系学习一个矩阵,参数规模大,计算开销高。

4. 评分函数的优化

评分函数需要通过优化算法进行训练,常用的方法包括基于负采样的优化,即在训练过程中不仅考虑正例三元组,还要生成一些负例三元组,通过最小化正例的评分最大化负例的评分来优化模型。

  • 目标函数:常见的目标函数是最小化加性边界损失(margin-based loss function),有点类似三元组损失,形式如下:
    L = ∑ ( h , r , t ) ∈ T + ∑ ( h ′ , r , t ′ ) ∈ T − [ f ( h , r , t ) − f ( h ′ , r , t ′ ) + γ ] + L = \sum_{(h,r,t) \in \mathcal{T}^+} \sum_{(h',r,t') \in \mathcal{T}^-} [f(h,r,t) - f(h',r,t') + \gamma]_+ L=(h,r,t)T+(h,r,t)T[f(h,r,t)f(h,r,t)+γ]+
    其中, T + \mathcal{T}^+ T+ 是正例三元组集, T − \mathcal{T}^- T 是负例三元组集, γ \gamma γ 是边界值。

5. 评分函数的选择

  • 对于简单关系的知识图谱(如一对一关系),可以使用TransE等基于距离的评分函数。
  • 对于复杂关系(如多对多关系),可以选择TransHTransR等方法。
  • 对于有非对称关系的知识图谱,可以使用ComplExDistMult
  • 如果需要捕获更复杂的关系模式,RESCAL 可以提供更大的表现力。

http://www.kler.cn/a/349083.html

相关文章:

  • windows上传文件到服务器
  • 【Linux】Linux下的Makefile基本操作
  • 聚铭网络脆弱性扫描系统荣获CNNVD兼容性资质证书
  • 苍穹外卖学习笔记(十九)
  • 【力扣 | SQL题 | 每日3题】力扣1097,1149,1070
  • 【SpringBoot】application配置文件中的数组配置及绑定
  • c++的web框架Restbed介绍及在嵌入式Linux下的移植详解
  • 代码随想录(七) —— 二叉树部分
  • 前端性能优化全面指南
  • 一次Fegin CPU占用过高导致的事故
  • QT QML 练习5-平铺btn按键
  • 5G NR UE初始接入信令流程
  • Vulnhub:Me-and-My-Girlfriend-1
  • 深度学习-22-基于keras的十大经典算法之深度神经网络DNN
  • 慢慢来才是最快的方式
  • 住房公积金 计算器-java方法
  • 【Python语言进阶(二)】
  • Ofcms-(java代码审计学习)
  • 红外超声波雷达测距
  • [含文档+PPT+源码等]精品基于Python实现的django图书自助借还系统设计与实现