2020/02/10
《
知识图谱:方法、实践与应用》读书笔记
《No.05》第2章 知识图谱表示与建模(2.5~2.6)
2.5. 知识图谱的向量表示方法
2.5.1. 知识图谱表示的挑战:
2.5.1.1. 知识以基于离散符号的方法进行表达,面对大规模的知识库很难扩展。
2.5.1.2. 数据具有一定的稀疏性,现实中的知识图谱无论是实体还是关系都有长尾分布的情况,也就是某一个实体或关系具有极少的实例样本,这种现象会影响某些应用的准确率。
2.5.2. 词的向量表示方法
2.5.2.1. 独热编码: 独热编码(One-Hot Encoding)方法是将一个词表示成一个很长的向量,该向量的维度是整个词表的大小。
2.5.2.2. 词袋模型: 词袋模型(Bag-of-Words,BoW)是一种对文本中词的表示方法。该方法将文本想象成一个装词的袋子,不考虑词之间的上下文关系,不关心词在袋子中存放的顺序,仅记录每个词在该文本(词袋)中出现的次数。
2.5.2.3. 词向量:基于上下文的稠密向量表示法,通常称为词向量或词嵌入(Word Embedding)。产生词向量的手段主要有三种:
2.5.2.3.1. Count-based。基于计数的方法,简单说就是记录文本中词的出现次数。
2.5.2.3.2. Predictive。基于预测的方法,既可以通过上下文预测中心词,也可以通过中心词预测上下文。
2.5.2.3.3. Task-based。基于任务的,也就是通过任务驱动的方法。通过对词向量在具体任务上的表现效果对词向量进行学习。
2.5.3. 知识图谱嵌入的概念
2.5.3.1. 将知识图谱中包括实体和关系的内容映射到连续向量空间方法的研究领域称为知识图谱嵌入(Knowledge Graph Embedding)、知识图谱的向量表示、知识图谱的表示学习(Representation Learning)、知识表示学习。
2.5.4. 用向量表达实体和关系的知识图谱嵌入方法的优点
2.5.4.1. 使用向量的表达方式可以提高应用时的计算效率
2.5.4.2. 增加了下游应用设计的多样性。
2.5.4.3. 将知识图谱嵌入作为下游应用的预训练向量输入,使得输入的信息不再是孤立的不包含语义信息的符号,而是已经经过一次训练,并且包含一定信息的向量。
2.5.5. 知识图谱嵌入的主要方法
2.5.5.1. 转移距离模型(Translational Distance Model): 主要思想是将衡量向量化后的知识图谱中三元组的合理性问题,转化成衡量头实体和尾实体的距离问题。
2.5.5.2. 语义匹配模型(Semantic Matching Models):挖掘向量化后的实体和关系的潜在语义。
2.5.5.3. 考虑附加信息的模型: 考虑额外的附加信息进行提升。
2.5.5.3.1. 实体类型是一种容易考虑的额外信息。
2.5.5.3.2. 逻辑规则(Logical Rules)也是常被用来考虑的附加信息
2.5.6. 知识图谱嵌入的应用
2.5.6.1. 链接预测: 指通过一个已知的实体和关系预测另一个实体,或者通过两个实体预测关系
2.5.6.2. 三元组分类:给定一个完整的三元组,判断三元组的真假
2.5.6.3. 实体对齐: 验证两个实体是否指代或者引用的是同一个事物或对象。
2.5.6.4. 问答系统: 对某一个具体的通过自然语言表达的问题,使用知识图谱中的三元组对其进行回答
2.5.6.5. 推荐系统: 对用户推荐其没有接触过的、但有可能会感兴趣或者购买的服务或产品
2.6. 开源工具实践:基于Protégé的本体知识建模
2.6.1. Protégé软件是斯坦福大学医学院生物信息研究中心基于 Java 语言开发的本体编辑和本体开发工具,也是基于知识的编辑器,属于开放源代码软件。