实体集扩展是指已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系从其在文本或者网页中的共现来推断.随着知识图谱研究的兴起,根据知识图谱中知识的共现来研究实体集扩展也成为了一种可能.主要研究知识图谱中的实体集扩展问题,即:给定几个种子实体,利用知识图谱来得到更多的同类别的实体.首先,把知识图谱建模成一个异质信息网络,即含有多种实体类型或者关系类型的网络,提出了一种新的元路径下基于频繁模式的实体集扩展方法,称为FPMP_ESE.FPMP_ESE采用异质信息网络中的元路径来捕捉种子实体之间的潜在共同特征.为了找到种子实体之间重要的元路径,设计了一种新的基于频繁模式的元路径自动产生算法FPMPG.之后,为了更好地给每条元路径分配相应的权重,设计了启发式的方法和PUlearning的方法.最后,在真实数据集Yago上的实验结果表明,所提出方法较其他方法在实体集扩展任务上具有更好的性能和更高的效率
[知识图谱, 实体集扩展, 异质信息网络, 元路径, 频繁模式, PU learning]
[郑玉艳, 田莹, 石川]