【2021】知识图谱导论(陈华钧)——阅读思考与笔记
tips:其中所有【】表示的内容为博主本人想法,非作者观点,请注意辨别。
这是一本全面覆盖知识图谱多个方面的书籍。书中不仅详细介绍了知识图谱的表示、存储、获取、推理、融合、问答和分析等七大方面,还深入探讨了多模态知识图谱、知识图谱与图神经网络的融合、本体表示学习、事理知识图谱,以及知识增强的语言预训练模型等新兴热点和发展趋势。
目录
1.重要观点摘录
2.自我思考
1.语义网络结合框架系统提升问答质量。
2.使用知识图谱的方式与其的存储方式存在关系。
3.推理方式思考
4.图的基本模型
3.精读部分
1.基于符号逻辑的知识图谱推理
2 基于表示学习的知识图谱推理
3.基于嵌入学习的知识图谱推理
3.基于规则学习的知识图谱推理
4.本体嵌入
5.知识图谱融合
1.重要观点摘录
1.知识图谱是一种世界模型
知识图谱本质上可以看作一种世界模型World Model、纵观人工智能相关方向的发展历史,一直有一个核心的命题是寻找合适的万物机器表示,用于记录有关世界的知识。
知识图谱同时拥抱机器的符号表示和向量表示,并能将两者有机地结合起来解决搜索、问答、推理和分析等多方面的问题,关于这一点的介绍也将贯穿本书的始终。
2.知识图谱具有人工智能的基因,这可以追溯到1960年,人工智能领域学者提出的知识表示方法语义网络的本质就是一种知识图谱的表示方式
3.知识图谱也具有很鲜明的互联网基因互联网的发展特别是万维网的发展促进了人类知识的共享开放领域数据如Wikipedia的众包积累,没有万维网数十年积累的开放数据,也不会有谷歌的知识图谱。
4.知识图谱的价值
知识图谱支持语义搜索
知识图谱支持的事物级别而非文本级别的搜索,大幅度提升了用户的搜索体验谷歌在2012年推出知识图谱支持的新搜索引擎时,提出的口号是“Things,Not Strings!"
知识图谱支持智能问答
智能问答本质就是一种对话式的搜索,相比普通的搜索引擎,智能问答更加需要事物级的精确搜索和直接回答
当前,实现智能问答功能主要有三种形式,第一种是问答对,第二种形式要求给定问句就能直接从大段文本中准确地定位答案,第三种是知识图谱。
知识图谱支持下的推荐系统
知识图谱的引入丰富了User和ltem的语义属性和语义关系等信息,将大大增强User和Item的特征表示,从而有利于挖掘更深层次的用户兴趣。
5.知识图谱的两个核心技术维度
从知识的视角,关心怎么表示概念和实体,怎样刻画它们之间的关系,怎样进1步表示公理、规则等更加复杂的知识
随着深度学习的兴起,怎样利用向量表示实体和关系产生了KG Embedding的技术领域。怎样利用神经网络来实现逻辑推理则产生了Neural Symbolic Reasoning等新兴的技术领域。
从图的视角,关心图中的节点、边、链接、路径、子图结构,怎样存储大规模的图数据,怎样利用图的结构对图数据进行推理、挖掘与分析等
知识图谱一方面比纯图的表达能力更强,能建模和解决更加复杂的问题。另外一方面又比传统专家系统时代的知识表示方法采用的形式逻辑更简单,同时容忍知识中存在噪声,在构建过程更加容易扩展,因此得到了更为广泛的认可和应用。
6.知识图谱的技术栈
知识图谱涉及的技术要素可以分为表示、存储、抽取、融合、推理、问答和分析等几个方面
例如,从表示的维度,涉及最基本的属性图表示和RDF图模型,以及更复杂知识的OWL本体表示和规则知识建模。
从存储的维度,涉及怎样利用已有的关系数据库存储知识图谱,也涉及性能更高的原生图存储、图查询语言等。
从抽取的维度,涉及怎样从文本中抽取概念、识别实体以及抽取三元组和事件等更为复杂的结构化知识
从融合的角度,涉及怎样实现本体映射和概念匹配,以及实例层的实体对产等技术。
从推理的角度,涉及基于传统符号逻辑的推理技术,以及新兴的基于表示学习和神经网络的推理技术。
从问答的角度,涉及问句理解、语义解析、答案生成和实体链接等多个智能问答领域的技术
从分析的角度,涉及传统的图算法,以及利用图嵌入、图神经网络等技术对知识图谱数据进行深度挖掘和分析等方面的技术。
在解决一个实际问题时,通常仅需要用到其中若千技术的组合,但对它们进行体了解和全面把握,对于提出系统性的解决方案会有很大帮助。
7.知识图谱领域最常用的表示是符号表示和向量表示两种方法
符号表示方法包括RDF、OWL等
RDF(Resource Description Framework)是资源描述框架的缩写,它是一种用于描述Web资源的语言。
OWL(Web Ontology Language)是网络本体语言的缩写,它是一种基于XML的语言,用于描述网络上的本体。
向量表示方法包括Word2Vec、 GloVe等
Word2Vec是一种浅层神经网络模型,用于将词汇表中的单词转换为向量
GloVe是一种基于全局词频统计的词嵌入模型,用于将词汇表中的单词转换为向量。
8.将符号表示和神经网络方法相互结合是知识表示的重要发展方向,特别是对于知识图谱,这两者的有机融合也是知识图谱的构建和应用非常重要的基本技术路线,这一点也将贯穿于本书的始终。
9.图的结构和语义类型信息是进一步构建更加复杂知识结构的基础
知识图谱中包含两类信息,一类是图的结构信息,另一类是由节点和边的标记所包含的语义类型信息。
10.知识图谱推理的两种方法
推理能力是人类心智区别于普通物种的重要特征之一。人类通过推理,从已知的事实中获取和习得新的知识。利用机器实现类似于人类心智的推理能力是人工智能自诞生以来最核心的目标和任务之一。
构建各种各样的知识图谱来描述客观世界,抽象万物之间的逻辑关系,不只是为了查询和搜索关于万物的信息,更是为了能够基于这些关于事物的描述性事实,去推断、归纳和预测未知的事实。
基于符号逻辑的推理:从知识表示的维度,即:怎样表示和描述知识,进而完成推理.
基于表示学习的推理:从知识表示学习的角度,希望基于表示学习和神经网络来完成知识推理两种推理方法的比较
两种推理实现形式对于知识图谱的推理应用是同等重要的,两种推理方法各有优缺点,需要根据具体应用场景选择合适的方法。可以集成两者的一些方法,以发挥各自的优势。
符号表示是一种显式的知识表示方法,它的最大优势是可解释性很好。而向量表示的优势是比较易于捕获隐含的知识,例如可以利用两个实体在向量空间的位置推算它们可能存在的各种关系。这很重要,因为永远无法显式描述所有的知识。但向量表示的最大缺点是丢失了符号表示的可解释性。参数化的数值对机器是友好的,但不利于人来理解。
【大模型将向量表示做到了极致,而我重新回顾知识图谱的目的就是重新利用知识图谱的符号表示获得可解释性】
从推理模式的维度,主要从演绎推理和归纳推理两个维度进行划分。演绎推理更多依赖于显式的知识描述和逻辑推导,而归纳推理则更多地依赖于大数据和机器学习方法。
【同样的,归纳推理的可解释性不好,所以我会更关注本文的演绎推理是怎么实现的】
在本书中,将分别介绍基于符号表示的演绎推理方法,如利用本体公理或Datalog实现的推理;基于符号表示的归纳推理,如利用图结构做归纳的路径排序算法(Path Ranking Algorithm,PRA)和利用规则归纳学习的关联规则挖掘(Association Rule Mining under Incomplete Evidence,AMIE)。进一步会重点介绍当下更为流行的基于表示学习和神经网络的知识图谱推理方法,例如知识图谱嵌入系列模型和基于图神经网络图谱推理模型等。还有一类方法研究基于向量表示学习符号规则,再利用符号规则做演绎推理,这实际上是一类将基于符号的演绎推理和基于向量的归纳推理相结合的方法,也是当前人工智能和知识图谱的一个研究热点。当然,也可以基于知识图谱完成溯因推理、类比推理和因果推理等其他推理模式。
2.自我思考
1.语义网络结合框架系统提升问答质量。
在2.2知识表示一章中,提到了框架系统
框架系统的基本思想认为人们对现实世界中事物的认识都是以一种类似于框架
的结构存储在记忆中。当面临一个新事物时,就从记忆中找出一个合适的框架,并根据实际情况对其细节加以修改、补充,从而形成对当前事物的认识。
框架系统的基本表达结构是框架,一个框架由若干个“槽”(Slot)结构组成,每
个槽又可分为若干个“侧面'槽用于描述对象某一方面的属性,侧面用于描述相应属性的一个方面,槽和侧面所具有的属性值分别称为槽值和侧面值。【我感觉就像一个巨大的完形填空选择题】
这其实有点像提示词工程。知识图谱的知识表示是语义网络,能否基于语义网络,设计一套框架来解决问题呢?
例如医疗知识图谱,我们就根据医疗解决问题的框架,寻找其与知识图谱结构的对应关系,将图谱搜索与医疗问题的人类思考步骤关联起来。
2.使用知识图谱的方式与其的存储方式存在关系。
由于UMLS的接口调用的时间开销很大,我本打算后续使用其关系数据库的形式进行查询,在3.2章知识图谱中提到:关系数据库处理多跳查询时效率低下。关系数据库在处理多跳查询时,到5跳时已经无法得出结果,但对于图数据库仍然可以在秒级范围内得出结果。
我需要根据自己的查询需求选择不同的知识图谱的存储方式。
除了关联查询能力,深层次的关系存储方式还将提供关联推理的能力,属性图数据库如Neo4J提供了由于关系模型的关联查询能力,而AllegroGraph等RDF图数据库则提供了更多的关联推理能力。
属性图与RDF图存储的比较:属性图实际上是Neo4i所引导的一种数据模型尚未形成工业标准,但因为推出时性能比较好,因而得到工业界的大量实践。RDF图模型确切地说不是一个数据存储模型,而是一种数据交换的格式标准它由国际万维网联盟W3C倡导和推动,因为来源于人工智能领域有关知识表示方向的研究,因而具有较好的理论基础
如果应用场景重图结构和查询分析,属性图会更合适一些,如果应用场景重知识建模,特别是要求描述和表示复杂的关联关系且有知识推理要求,采用RDF图模型会更适合一些
其中SPARQL是描述性的查询语言,而Cypher和Gremlin是过程式查询语言,如图3-11所示。过程式的查询语言需要严格地根据图的结构精确定义查询语义,因此查询解析及查询处理的效率也非常高。描述性查询语言重在刻画查询本身的语义,通常还需要再经过一轮翻译,成为底层实际查询语言如SQL,其优势是更接近于人的自然语言并易于人理解和定义
什么时候使用原生图数据库。主要的判断基于三个原则:第一是高性能的关系查询,即如果应用场景涉及很多复杂的关联查询,图数据库有显著的性能优势,大部分知识图谱应用都涉及这类复杂关联查询;第二个是模型的灵活性,在无法预先定义明确的数据模型(即Schema),或需要融合跨多个领域的多来源数据时,图数据库具有很好地适应变化的优势;第三个是复杂图分析需求,例如涉及子图匹配、图结构学习、基于图的推荐计算等,图数据库通常会外接图算法计算引擎,因而会有较大的优势,这一点会在图算法和图分析部分进一步展开介绍,如图3-13所示。
【因此,在分析后,我打算将知识图谱与子图结果存入图数据库后,再进行处理】
3.推理方式思考
在5.1的推理概述中,推理指的是从已知事实(KnownFacts)来推断得出新的事实(New Facts)的过程。有很多种实现推理的方法,较为常见的有演绎、归纳、溯因、类比。
首先来看演绎推理(Deductive Reasoning)。演绎推理是一种Top-down Logic,在日常思维过程中经常被用到。例如肯定前件(Modus Ponens)推理逻辑十分简单:假设知道P能推出Q,如:“如果今天是周四,张三就会去上班”,同时也知道P的事实,如“今天正好是周四”,就可以推理得出。【假如我们获得知识图谱一个肯定前件的关系(知识图谱中的线),我们就能推理它的后果,可以通过人为对这些关系进行定义,哪些具有这种推理关系,一旦包含其中,就按照设计的贵州进行推理】。
第二类常见的推理称为归纳推理(Inductive Reasoning)。和演绎推理不一样,归纳推理是一种Bottom-up Logic,指的是通过观察客观事实进而总结和归纳抽象知识的推理过程。例如,假如观察发现看到的天鹅都是白色的,于是可能归纳得出所有的天鹅都是白色的。显然归纳推理不一定是正确的,因为突然发现还有黑色的天鹅存在。实际上,日常生活中的推理都是这种近似正确的推理,尽管不一定百分百正确,但很有用。再看两个归纳逻辑的例子,假设箱子中有很多白色或黑色的球,随机地从中取出一部分球,发现其中3/4是黑色,1/4是白色的,于是可以近似得出整个箱子中的球黑色占比3/4。再比如,统计发现90%就读某高中的学生都会上大学,如果张三是该高中的学生,就会归纳推断他极大可能也会上大学。
还有一种很有用的推理形式称为溯因推理(Abductive Reasoning)。现在谈论深度学习的缺点,经常会说到一个问题即可解释的问题。溯因推理关注的一个方面就是推理结果的可解释逻辑。下面举例说明,假如知道一个假设或规则:“如果下雨,草地就会湿”,现在观察到草地已经湿了,基于已知假设,我们推断得出:“可能是下雨导致的潮湿”。所以,首先溯因推理也是一种从观察现象出发的推理,但和归纳推理不同,它是将抽象的规则知识与观察现象相结合,寻找可能原因的推理的过程。而归纳推理则是从观察到的现象和原因出发,归纳抽象规则的过程。【对应医疗中的病情分析】当然和演绎推理更加不同,演绎推理是将抽象规则知识与原因相结合,推理得出结果的过程。【对应医疗中的疾病诊断】
还有一类在传统人工智能领域被研究得比较多的推理称为类比推理。人们经常采用类比思维来解决问题,特别是在学习样本很少的情况下,习惯于寻找类似的解决方案来解决面临的新问题。例如,假如我已经学过草莓饼干怎么做,现在需要做菠萝饼干,就会去比较两者的相同和不同之处。抽象来讲,类比推理的过程是:假设P和Q在某些属性上相似,如a、b、c,同时观察到P有一个新属性x,因此,可能类比推理得出Q也可能具有x属性。和归纳推理不同,类比推理从个体到个体的推理过程。本质上,在机器学习领域的迁移学习也属于一种类型的类比推理过程。【模型的少样本学习,我们如何判断类比推理的过程正确,可以比较子图结构的相似性】
4.图的基本模型
六度理论指的是在社交网络中,任意给定两个人,最多通过六跳就可以建立两者的关联关系
在互联网高度发达的今天,可能根本不需要六跳,两三跳就能找到想找的人了。
弱联系假设指的是假如A同时通过强关系链接到B和C,则B可能和C存在弱关系链接
信息的传播通常都是通过众多的弱关系传播的,而不是强关系。
无尺度理论认为很多复杂系统拥有共同的重要特性: 大部分节点只有少数几个连接,而某些节点却拥有与其他节点的大量连接
这些具有大量连接的节点称为“集散节点”
所拥有的连接可能高达数百、数千甚至数百万个
无尺度网络的构建主要基于一个优先连接原则。
无尺度网络节点度的分布符合幂律分布
随机网络模型认为网络中的边是随机连接的
可以基于Erdos-Renvi模型构建随机网络图
在一个随机网络中,一个节点拥有k个连接的概率由三部分决定: 给定概率参数p代表一条边出现的概率
第一个因素是这k个连接出现的概率,即pk; 第二个因素是剩下的(N-1-k)条边缺失的概率,即(1-p)N-1-k,第二个因素是从N-1条可选的边中选择k条边的概率,记为N-1中选k.
3.精读部分
1.基于符号逻辑的知识图谱推理
1.1 基于本体公理的知识图谱推理
本体公理是一种基于符号表示的演绎推理方法。可以为一个知识图谱定义很多公理,例如,定义一条代表类别之间包含关系的公理:“人工智能公司rdfs:subClassOf高科技公司”
利用这些简单的公理就可以实现一些简单的演绎推理了
基于本体公理的推理也可以非常复杂,可以定义更细致的语义,通过传递属性公理inversofaxio等完成更为复杂的演绎推理
例如,可以为关系定义更细致的语义。通过传递属性公理(Transitive Property Axiom),可以声明某个关系如ancester是传递关系。
通过inversof axiom可以声明两个关系如ancestor和descendant)是百反关系
1.2基于图结构与规则学习的知识图谱推理
PRA是一种利用知识图谱的图结构信息实现归纳推理的算法。它的基本假设是:两个实体之间所有可能的路径都可能作为推断两个实体存在某种关系的线索或依据。PRA对这些可能的路径进行排序加权,推断待预测关系的概率
AMIE等也是利用知识图谱已经存在的事实和图结构学习出一组规则,再利用规则完成推理。这类方法有一个缺点是依赖于对整个知识图谱做搜索匹配,在知识图谱规模增大的情况下,搜索空间和复杂度也急剧上升,学习的效率也会随之降低。
1.3 基于表示学习的知识图谱推理
知识图谱嵌入系列模型,如TransE和DistMu等,将知识图谱中的实体和关系都投影到向量空间
这些模型通常以知识图谱的三元组为训练输入,通过定义一个约束函数对向量表示进行学习。
例如,DistMult模型定义了一个向量乘法函数,要求: 如果两个实体h、t之间存在r关系,那么,h的向量乘以代表r关系的矩阵Mr所得出的向量应该在向量空间与t比较接近。
向量表示的一人优势是推理的计算转化为向量之间的计算,免除了符号的搜索匹配过程,因而推理计算更加高效
但向量表示的最大问题是丢失了可解释性,因为向量计算实际上丢失了符号推理的过程。
1.4基于图神经网络的知识图谱推理
图神经网络善于捕获图的结构特征,可以处理知识图谱数据
例如R-GCN首先对某个节点的边按关系类型进行区分,然后再用传统的GCN模型对节点特征进行聚合。
图神经网络可以为图谱推理获得更多的图结构方面的特征,但图谱稀疏性问题则更为突出
因此图神经网络推理模型不适合图结构比较稀疏的场景,例如常识类知识图谱的表示学习。
1.5 符号推理与表示学习的融合
符号知识的向量化表示更易于捕获隐合的不确定性知识,向量空间的连续性也使得基于向量的推理计算更易于泛化,并免于严格的符号逻辑匹配。
通过可微过程学习出的数值化知识表示虽然对机器友好,但人不可理解,同时,向量化的推理计算丢失了对推理链的跟踪,导致推理结果不可解释
将符号规则与表示学习相结合可以在一定程度上解决这一问题
1方面,在向量表示的学习过程中,植入符号规则的学习过程可以利用同步学习出的规则增强推理结果的可解释性。
另外一方面,将人工构建和机器学习出的符号规则与向量表示的学习相耦合,也可以进一步在表示学习过程中植入逻辑层的先验知识,从而使得向量表示更易于实现符号逻辑推理.
1.5 基于符号逻辑的知识图谱推理
a.基于本体的推理
OWL本体语言简介
OWL扩展了RDF Schema的表达能力,提供了更多描述类和属性的表达构件
可以定义更多的公理描述概念与概念之间、属性与属性之间的关系,以及属性本身的特性
概念包含推理
概念包含推理是定义在TBox上面的推理,一般基于TBox中的公理推断两个概念之间是否存在包含关系。
实例检测推理
实例检测推理主要用于计算知识库中符合某个概念或关系定义的所有实例.
Tableax算法
Tableaux算法的基本思想是通过一系列规则构建ABox,以检测知识库的可满足性
基于Datalog的知识图谱推理
Datalog的基本组成单元是原了谓词p,其中n代表谓词的目数
条规则由头部原子H和多个体部原子组成,表示是体部描述对头部描述的逻辑蕴含关系
Datalog知识库还包含大量的事实型知识,在语法层面指那些没有体部也没有变量的规则
Datalog推理过程基于第一条规则和第一条事实,可以推理得出新的结果path(a,b)。
基于产生式规则的推理
产生式规则推理最早主要出现在专家系统时代的知识库推理中
产生式规则集合中存储都是像IF conditions THEN actions的规则
产生式规则通过一个推理引擎来控制系统的执行,并完成模式匹配、冲突解决和动作执行的操作。
Rete算法是产生式规则系统中常用的推理算法
Rete算法的核心思想是将产生式规则中的LHS部分组织成判别网络,然后用分离的匹配项构造匹配网络同时缓存中间结果
Rete算法高效的主要原因是用空间换时间.
2 基于表示学习的知识图谱推理
利用机器学习实现知识图谱归纳推理
基于符号逻辑的演绎推理的主要缺点是对知识表示的逻辑结构要求比较高
不论是本体推理还是规则推理,都要求人工定义公理和规则才能完成推理。
现代知识图谱的一个主要优势是可以充分利用各人领域已经积累的数据实现规模化的快速构建,可以利用机器学习方法在大规模知识图谱数据基础之上实现基于归纳学习的推理
随着深度学习的深入发展,基于表示学习和知识图谱嵌入的推理方法得到更多的重视,图神经网络方法也非常自然地被应用到知识图谱的推理和挖掘分析中。
3.基于嵌入学习的知识图谱推理
1.知识图谱嵌入学习简介
知识图谱最关心的推理任务是关系推理
可以进一步把关系推理的问题分解为三个子问题,即: 给定两个实体,预测它们之间是否存在r关系;给定头实体或尾实体,再给某个关系,预测未知的尾实体或头实体,给定一个三元组,判断其为真或假
与词向量类似,希望为知识图谱中的每个实体和关系学习一个向量表示,称为实体或关系的向量表示。
2.处理复杂关系
假如一个头实体在知识图谱中对应多个尾实体,显然这几个尾实体的向量表示应该是不一样的。
解决这一问题的一种思路是利用关系r对头尾节点的表示进行区分。
3.处理多跳推理
在知识图谱中进行复杂的多跳逻辑推理是一个非常重要的问题
BetaE重点提出了一种用Beta分布对知识图谱中实体和逻辑查询进行建模的概率嵌入(Probabilistic
Embedding)方法。
4.处理稀疏性问题
尽管有很多知识图谱嵌入的学习模型,但它们都基于一个基本的假设,即对于待学习的实体或关系,知识图谱中拥有足够多的包含该实体或关系的三元组。
也有一些模型关注知识图谱嵌入学习的稀疏性问题,例如WRAN模型提出利用关系对抗网络来提升长尾部分的关系推理和补全的效能
5.符号推理与向量推理的比较
符号表示是一种显式的知识表示,一般需要人工来定义,而向量表示主要是依靠大量训练语料,通过机器学习模型学习出来的表示。
符号推理一般都是需要人工定义推理逻辑的,比如本体推理都需要人工定义公理,而向量推理本身是利用向量计算完成的近似推理,不需要人工定义显式的规则逻辑。
3.基于规则学习的知识图谱推理
1.规则推理概述
知识图谱嵌入主要考量的是三元组级别的知识,但知识图谱中的知识不止三元组.
规则是重要的知识结构,可以利用知识图谱本身的数据来自动学习出这些规则,进而完成推理
2.PRA
PRA的基本思想是将两个实体的路径作为特征来预测其间存在某种关系。
PRA最终学习得出的是一组从头节点到尾节点的路径,这些路径被用来推断头尾节点之间末知的关系。
3.AMIE
AMIE是一种基于规则学习的归纳推理方法,依次学习预测每种关系的规则。
AMIE规则学习的过程不断产生新的规则,
这里主要定义了两个约束条件: 一是所学习出的规则要求是封闭
的并且置信度要大于某个预值minConf; 二是所产生的新规则的置信度应该要大于其母规则的置信度。
4.基于神经网络与向量嵌入的规则学习
Neura-LP提出了一个称为可微规则学习的知识图谱推理模型,可以利用基于梯度下降的方法优化规则学习。
DRUM定义了一种新的关系B0,对应的矩阵为单位矩阵1,这个关系可以插入规则中的任意地方,并不改变计算结果,由此可以改变规则的长度。
5.规则学习与嵌入学习的融合模型
lterE是一种将规则学习和嵌入学习相结合的模型,整个迭代学习的过程分为三个步骤,嵌入学习
Embedding Learning)学习知识图谱的向量表示,Axiom Induction基于嵌入学习规则,Axiom
Injection把学习出的规则植入嵌入学习的学习过程中,提升向量表示学习的效果。
terE的迭代学习思路建立于作者们发现了基于线性变换假设的表示学习模型对于规则挖掘具有很好的友好性。
4.本体嵌入
1.本体概念层的推理
本体概念层,也就是TBox本身的表示学习会与实例层,也就是ABox的表示学习会有所不同,因此需要研究本体概念层的表示学习方法,也就是本体嵌入(Ontology Embedding)。
本体嵌入和知识图谱嵌入有什么区别呢? 首先,本体嵌入和知识图谱嵌入本质上都是一种知识表示结构的嵌入,只不过嵌入的内容有所不同,本质上也没有严格的区分和界限。
2.EL Embedding模型
EL Embedding的主要目标是要将类及属性之间逻辑关系映射到向量空间,并在向量空间完成类似于符号空间完成的本体概念推理。
EL Embedding的基本思想是将本体中的每个类映射成一个球的表示,而类之间的关系就可以用球心的位置来反映。
3.其他本体概念层表示学习模型
量子嵌入(Quantum Embedding)借用了量子逻辑理论,将所有的层次关系都视为基于量子理论表示的向量空间之间的层次关系。
另一类专门针对本体概念层设计的表示学习模型,例如Onto2Vec、OWL2Vec等。其主要思想是把本体转化为一个图,每个类或概念对应图中的一个节点
4.总结
知识图谱嵌入模型的学习内容
知识图谱嵌入模型仅能学习实体和关系的表示
知识图谱还有TBox中的复杂本体逻辑,例如希望学习类的层次关系、TBox中的各种公理等
本体嵌入的研究
本体嵌入研究旨在学习类的层次关系、TBox中的各种公理等.
知识图谱推理的研究热点
推理不仅需要图结构,还需要进一步深挖更为复杂的规则逻辑结构
5.知识图谱融合
1.本体匹配
本体匹配是知识融合的关键技术之1
本体匹配旨在识别不同本体中的同义词、近义词或等价实体
本体匹配方法包括基于规则的方法、基于统计的方法和混合方法
基于规则的方法依赖于预先定义的本体规则和推理规则。
基于统计的方法通过分析大量本体实例数据来学习匹配模式
混合方法结合了基于规则和基于统计的方法的优点
2.实体对齐
实体对齐是知识融合的另一关键技术
实体对齐旨在识别不同数据源中的同一实体
实体对齐方法包括基于字符串匹配的方法、基于图匹配的方法和混合方法
基于字符串匹配的方法通过比较实体名称、描述等文本信息来识别对齐。
基于图匹配的方法通过分析实体之间的关系和属性来识别对齐
混合方法结合了基于字符串匹配和基于图匹配的方法的优点。
知识融合技术的发展前沿和趋势
知识融合技术正向着自动化、精准化和智能化方向发展
3.知识图谱融合概述
知识图谱融合概述
知识图谱包含描述具体事实的实例层和表达抽象知识的本体层
实例层一般包含海量的事实知识以表达具体的实体对象及对象之间的关系
本体层包含抽象的知识,如概念、公理。
传统的知识工程面临构建统一知识库的困难
真实的应用难以构建一个包含所有知识的本体,仅能实现部分领域应用中的知识共享。
领域的差异性导致不同本体具有分布性和主观性的特点,这也导致了构建统一本体的困难
知识会随着时间不断演化,导致本体和实例的异构性
不同的用户在不同的时间阶段会构建适合自己应用场景的本体
相同的知识实例可能会包含大量不同的实体名称,引起大量的共指问题,导致实例的异构性.
4.知识异构的原因分析
语言层面的不匹配导致知识异构
不同的语言大多存在不兼容的问题,这导致了不同时期构建的知识图谱在本体层面存在难以交互的挑战。
本体语言层次的不匹配可分为原语异构、语法异构、逻辑异构和表达能力异构四类。
模型层面存在的不匹配性也会导致知识的异构性
解释不匹配主要是由于不同的本体对于相同的术语采用了完全不同的定义。
8.2 基础图算法