论文部分内容阅读
随着网络大数据时代的到来,知识库作为对网络数据进行存储,组织和管理的一项重要技术,其数量和规模也空前地增加。一方面,知识库的快速增长将越来越多的知识存储到计算机中,让用户能更加便捷地搜索到需要的知识;另一方面,大规模知识库的构建依赖于人力。受限于知识库构建者知识和精力的局限,大部分知识库中存储的知识都是不完善的。为了在节省人力资源的前提下,为用户提供信息更完善的知识库,我们需要知识库具有自动扩充的能力。本文主要研究知识库中事实信息与分类结构的自动扩充问题,事实信息是指知识库中实体与实体之间的事实关系,而分类结构则是指知识库中实体与类别,类别与类别之间的上下位关系。传统的知识库自动扩充方法主要关注单个知识库事实信息的自动扩充,而对跨知识库的扩充,以及知识库的分类体系自动扩充的研究相对较少。本文针对知识库自动扩充方法研究相对薄弱的领域,主要做出了如下贡献: 1)在跨知识库事实关系的自动扩充方面,本文提出了一种跨知识库的表示学习方法。利用一个稠密知识库帮助一个稀疏知识库进行表示向量学习,训练获得的表示向量能够更准确地表示稀疏知识库中实体与关系的语义,弥补了传统表示学习方法在稀疏知识库上不适用的局限。实验证明,该方法不仅提升了事实关系扩充的效果,训练获得的表示向量还可以支持跨知识库实体对齐和跨知识库事实关系扩充等新任务。 2)在知识库分类体系自动扩充方面,针对传统方法仅利用文本模式(textual pattern)提取上下位关系低准确率和低召回率的问题,本文提出了一种将粗粒度类别划分为多个细粒度子类别的方法,从而完成对维基百科层次分类体系(taxonomy)的自动扩充。该方法从维基百科的信息框中挖掘一个给定的粗粒度类别可能的划分属性,并提出使用划分率(diffusing ratio)来评价每个可能的划分属性用于将该粗粒度类别划分为多个细粒度子类别的合理性。相比传统方法,该方法在分类体系扩充这一任务上提供了全新的思路,并取得了较好的效果。 3)在知识库分类体系自动扩充方面,本文提出了一种基于表示学习的标签分类体系(folksonomy)自动扩充方法。该方法利用电影-标签对信息和电影的三元组信息,学习得到实体和标签的表示向量,避免了训练数据不足的电影上表示学习的冷启动问题。通过将实体归入与其距离较近的标签下,发现实体潜在的标签类别,从而完成标签分类体系自动扩充的任务。本文将该方法运用到已有系统中,通过典型案例证明了方法的实用性。