论文部分内容阅读
知识库引文推荐是指针对知识库内的实体,将与其相关的文档进行自动的筛选与推荐。随着知识库在各个领域的广泛应用,知识库引文推荐逐渐成为当前的研究热点,例如文本检索会议(TextRetrieval Conference,TREC)中的 KBA(Knowledge Base Acceleration)评测中就有针对引文推荐的任务CCR(Cumulative Citation Recommendation),本文研究的课题也是基于该任务。当前对知识库引文推荐的研究,主要集中在将其建模为排序学习的检索模型。通过对比不同引文推荐常用模型,本文提出了基于排序学习的引文推荐方法,在此基础上将知识库引文推荐归结为三个关键问题:针对知识库某一实体名的查询扩展、针对文档和实体的特征提取、以及判断文档与实体相关性的预测模型的选择。本文的主要研究内容和阶段成果如下:1.提出了基于语义词典与词向量(wordembedding)相结合的实体查询扩展算法。首先,通过利用DBpedia中的属性特征实现基于语义词典的实体查询扩展算法;其次,分别利用WAF和word2vec算法实现基于词向量的实体查询扩展算法;最后将两种算法结合起来,获得最终的实体扩展结果。2.提取出本领域不常使用的语义特征、句法特征和时间特征,用以实现后续的相似性判断。采用LDA和ESA算法来构建语义特征,用以解决一词多义问题。此外,本文发现句法特征和时间特征在知识库引文推荐中同样非常有效。3.在上述基础上,采用point-wise、pair-wise和list-wise三种排序学习的方法,实现实体与文档的相关性判断。实验证明,该方法比常用的知识库引文推荐算法更有效。4.提出了线性模型将逻辑回归与随机森林分类器组合起来,完成排序学习算法,并最终实现相关性的判断。实验证明该方法比通用的排序学习更能有效解决知识库引文推荐问题。5.设计并实现了完整的知识库引文推荐系统。该系统在TREC KBA2014评测数据上的实验结果与基线系统相比,F1值平均提升了19.8%。表明本文设计的算法能够较好的解决引文推荐问题,且具有可行性。