知识图谱融合

知识融合是解决知识图谱异构问题的有效途径。
知识融合的核心问题在于映射的生成
知识融合的作用
  • 数据清洗
    • 构建的知识图谱存在异构性
    • 知识融合是重要的预处理步骤之一
  • 数据集成
    • 不同知识图谱可能存在重叠的知识
    • 融合多个不同来源的知识图谱
异构问题

本体匹配(Ontology Matching)

  • 发现(模式层)等价或相似的类、属性或关系
  • 本体对齐、本体映射
本体匹配发现一个三元组M=[InvalidCharacterError: "O,O'" did not match the Name production],包括一个源本体О ,一个目标本体O',以及一个映射单元集合M ={m1,mz,... mn}。其中mi表示一个基本映射单元,可以写成mi =[InvalidCharacterError: "ID,C," did not match the Name production]的四元组形式:
  • id为映射单元的标识符,用于唯一标识该四元组
  • cc'分别为О和O'中的概念
  • s表示c和c'之间的相似度,满足s∈[0,1]
本体:领域知识规范的抽象和描述,是表达、共享、重用知识的方法
  • 真实世界的模型
    • 术语集
    • 术语的含义
  • 形式化逻辑:一阶谓词逻辑

术语匹配方法

基于字符串:直接比较表示本体成分的术语的字符串结构规范化
  • 大小写:字符串中的每个符号转换为大写字母或小写字母的形式
  • 消除变音符:Montreal替换为Montreal;
  • 空白正规化:所有的空白字符(如空格、制表符和回车等)转换为单个的空格符
  • 连接符正规化:正规化单词的换行连接符等
  • 消除标点:在不考虑句子的情况下要去除标点符号
  • 消除无用词:如“to”和“a”
  • 相似度
    • Levenshtein距离,即最小编辑距离,目的是用最少的编辑操作将一个字符串转换成另一个
    • 汉明距离,它计算两个字符中字符出现位置的不同
      基于语言:依靠自然语言处理技术寻找概念或关系之间的联系
      • 内部方法:使用语言的内部属性,如形态和语法特点,寻找同一字符串的不同语言形态
      • 外部方法:利用外部的资源,如词典等。使用WordNet能判断两个术语是否有同义或上下义关系
      术语匹配的原理
      • 核心思想:将文档变为向量的形式,通过向量相似度实现文档匹配
      • 本体中的概念和属性往往含有大量的文本信息
      • 将待匹配的对象和相关文本组成文档的形式,再转换为文档向量
      基于虚拟文档
      • 概念的语言学描述:本地名、标签、注释
      • 匿名结点的语言学描述:前向邻居的语言学描述
      • 概念的邻居:主语邻居、谓语邻居、宾语邻居
      • 概念的虚拟文档:自身+邻居结点

      结构匹配方法

      • 核心思想:利用本体的结构信息来弥补文本信息量不足的情况
      • 本体中的概念和属性往往有大量相关的其他概念和属性,组成了一种图结构
      • 结构匹配器一般不采用图匹配技术,后者代价高昂且效果不理想
        • 间接的结构匹配器
          • 在术语匹配器中考虑结构信息,如邻居、上下文、属性等
        • 直接的结构匹配器
          • 图匹配复杂度高,无法直接使用
          • 相似度传播模型的变体很有效
      Anchor-PROMPT

      大型本体匹配

      记录进行——链接的时间复杂度为O(|M|*|N|)
      分块的方法:

      实体对齐(Entity Alignment)

      • 发现指称真实世界相同对象的不同实例
      • 实体消解、实例匹配

      传统方法

      • 等价关系推理:OWL等
      • 相似度计算
        • 计算特征
          • 实体标签信息:实体名、昵称、别名
          • 人工定义特征:公共邻居、词向量
          • 计算相似度:编辑距离、海明距离

      基于表示学习的方法:Embedding- based

      一个embedding是一个离散变量到一个连续数字向量的映射
      核心思想:基于表示学习技术,将知识图谱中的实体和关系都映射成低维空间向量,直接用数学表达式计算实体间相似度

      合并预先匹配好的实体,把两个网络合并为一个网络,用单一网络的嵌入表示进行嵌入

      先用单一网络的嵌入模型分别训练两个网络,然后用一些预先匹配好的实体训练一个线性变换对齐两个向量空间

      在两个异质知识图谱之间,根据少量种子对齐实体,可以实现大量实体对齐
      分别学习两个知识图谱的表示,建立两者映射关系

      前沿

      无监督对齐:不一定都有预先匹配好的实体

      多视角嵌入:单一模型的嵌入能力往往不足以对齐两个网络

      嵌入表示增强:改进现有的嵌入表示模型并用于对齐

      对抗训练:判别器的目标是预测节点的度,生成器的目标是让判别器无法预测节点的度

      超大规模对齐:上亿个节点的网络对齐

      • 实体异构
      • 实体歧义
      • 大规模匹配