知识图谱融合

知识融合是解决知识图谱异构问题的有效途径。

知识融合的核心问题在于映射的生成。

知识融合的作用

数据清洗
- 构建的知识图谱存在异构性
- 知识融合是重要的预处理步骤之一
数据集成
- 不同知识图谱可能存在重叠的知识
- 融合多个不同来源的知识图谱

异构问题

本体匹配(Ontology Matching)

发现(模式层)等价或相似的类、属性或关系
本体对齐、本体映射

本体匹配发现一个三元组M=[InvalidCharacterError: "O,O'" did not match the Name production]，包括一个源本体О ，一个目标本体O'，以及一个映射单元集合M ={m1,mz,... mn}。其中mi表示一个基本映射单元，可以写成mi =[InvalidCharacterError: "ID,C," did not match the Name production]的四元组形式:

id为映射单元的标识符，用于唯一标识该四元组
c和c'分别为О和O'中的概念
s表示c和c'之间的相似度，满足s∈[0,1]

本体：领域知识规范的抽象和描述,是表达、共享、重用知识的方法

真实世界的模型
- 术语集
- 术语的含义
形式化逻辑：一阶谓词逻辑

术语匹配方法

基于字符串：直接比较表示本体成分的术语的字符串结构规范化

大小写:字符串中的每个符号转换为大写字母或小写字母的形式
消除变音符:Montreal替换为Montreal;
空白正规化:所有的空白字符(如空格、制表符和回车等)转换为单个的空格符
连接符正规化:正规化单词的换行连接符等
消除标点:在不考虑句子的情况下要去除标点符号
消除无用词:如“to”和“a”
相似度
- Levenshtein距离,即最小编辑距离,目的是用最少的编辑操作将一个字符串转换成另一个
- 汉明距离，它计算两个字符中字符出现位置的不同

基于语言：依靠自然语言处理技术寻找概念或关系之间的联系

内部方法：使用语言的内部属性，如形态和语法特点，寻找同一字符串的不同语言形态
外部方法：利用外部的资源，如词典等。使用WordNet能判断两个术语是否有同义或上下义关系

术语匹配的原理

核心思想:将文档变为向量的形式,通过向量相似度实现文档匹配
本体中的概念和属性往往含有大量的文本信息
将待匹配的对象和相关文本组成文档的形式，再转换为文档向量

基于虚拟文档

概念的语言学描述:本地名、标签、注释
匿名结点的语言学描述:前向邻居的语言学描述
概念的邻居:主语邻居、谓语邻居、宾语邻居
概念的虚拟文档:自身+邻居结点

结构匹配方法

核心思想:利用本体的结构信息来弥补文本信息量不足的情况
本体中的概念和属性往往有大量相关的其他概念和属性,组成了一种图结构
结构匹配器一般不采用图匹配技术，后者代价高昂且效果不理想
- 间接的结构匹配器
  - 在术语匹配器中考虑结构信息，如邻居、上下文、属性等
- 直接的结构匹配器
  - 图匹配复杂度高，无法直接使用
  - 相似度传播模型的变体很有效