论文部分内容阅读
随着大数据时代的来临,互联网上的信息呈现出爆炸式增长,这给信息检索带来额外的成本与负担,为此人们从中清洗出知识并构建出知识库。目前已有的知识库,包括DBpedia,YAGO等,绝大部分都是基于英文维基百科或者其他英文语料建立的,因此中文知识库的构建迫在眉睫。实体匹配作为构建知识库的重要一环,在一定程度上决定着知识库的质量,是一项非常有意义且具挑战性的工作。 本文的工作主要包括中文百科实体匹配和中英文跨语言实体匹配两部分,分别如下所述: 1)中文百科实体匹配:以三大中文百科(百度百科,互动百科,中文维基百科)为基础,从中选择实体匹配文档候选集,提取候选集中两两文档之间的相关特征并计算相似度,构建相似度权重图。在图上添加相关约束,定义目标函数,构建混合线性规划模型。最后求解该模型,并以图的连通性来表示实体匹配的结果。本方法通过引入实体匹配文档候选集,大大减小了问题的规模;同时又通过构建混合线性规划模型,提高了实体匹配的准确率。在本文的实验中,实体匹配方法效果良好,达到了75.8%的查准率,82.5%的查全率和92.5%的准确率。 2)中英文跨语言实体匹配:以维基百科已有的中英文跨语言链接为基础,本文将中英文知识库中新跨语言链接的查找问题建模为排序问题。首先为一个中文实体寻找它的英文跨语言实体候选集,再通过手工特征提取、主题模型、深度学习的方法,为中文实体和它候选集中的每一个英文实体提取特征,最后将所有特征以一定方式拼接为一个长向量,用排序学习的方法去发现新的跨语言链接。在中英文维基百科上的实验表明,我们的方法取得了良好的效果。