基于排序学习的知识库引文推荐

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xy3594830691
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库引文推荐是指针对知识库内的实体,将与其相关的文档进行自动的筛选与推荐。随着知识库在各个领域的广泛应用,知识库引文推荐逐渐成为当前的研究热点,例如文本检索会议(TextRetrieval Conference,TREC)中的 KBA(Knowledge Base Acceleration)评测中就有针对引文推荐的任务CCR(Cumulative Citation Recommendation),本文研究的课题也是基于该任务。当前对知识库引文推荐的研究,主要集中在将其建模为排序学习的检索模型。通过对比不同引文推荐常用模型,本文提出了基于排序学习的引文推荐方法,在此基础上将知识库引文推荐归结为三个关键问题:针对知识库某一实体名的查询扩展、针对文档和实体的特征提取、以及判断文档与实体相关性的预测模型的选择。本文的主要研究内容和阶段成果如下:1.提出了基于语义词典与词向量(wordembedding)相结合的实体查询扩展算法。首先,通过利用DBpedia中的属性特征实现基于语义词典的实体查询扩展算法;其次,分别利用WAF和word2vec算法实现基于词向量的实体查询扩展算法;最后将两种算法结合起来,获得最终的实体扩展结果。2.提取出本领域不常使用的语义特征、句法特征和时间特征,用以实现后续的相似性判断。采用LDA和ESA算法来构建语义特征,用以解决一词多义问题。此外,本文发现句法特征和时间特征在知识库引文推荐中同样非常有效。3.在上述基础上,采用point-wise、pair-wise和list-wise三种排序学习的方法,实现实体与文档的相关性判断。实验证明,该方法比常用的知识库引文推荐算法更有效。4.提出了线性模型将逻辑回归与随机森林分类器组合起来,完成排序学习算法,并最终实现相关性的判断。实验证明该方法比通用的排序学习更能有效解决知识库引文推荐问题。5.设计并实现了完整的知识库引文推荐系统。该系统在TREC KBA2014评测数据上的实验结果与基线系统相比,F1值平均提升了19.8%。表明本文设计的算法能够较好的解决引文推荐问题,且具有可行性。
其他文献
【研究目的】平衡能力是维持人体基本行走和身体稳定的基础。已有研究表明,6-8岁是儿童发展平衡能力的敏感期。人体的平衡机能主要在中枢神经系统的调节下,由视觉、本体感觉和前庭觉统一协调发展,本体感觉是发展平衡机能的重要组成部分,所以本体感觉的提高是改善平衡能力的关键,但如何在运动中提高本体感觉进而提升平衡能力的研究甚少。而当前传统的中小学体育与健康课,主要是以多种感知觉系统组合而成,而对于专门的、有针
学位
由于IPv4地址池的耗尽,对很多网络来说给终端用户分配地址是一件很困难的事情,所以IPv6开始实际部署与应用。IPv6协议[1]相比于IPv4协议,在配置简易性和移动性管理方面有更突
随着互联网的快速发展,SaaS因其可维护性强的特点,越来越受到企业的重视。在把SaaS模式引入企业信息系统后,解决了传统ERP不足的同时,也引来了企业对数据安全和权限管理的担
随着互联网技术不断发展,越来越多的设备被接入到网络中,IPv4协议在这样的趋势下暴露出了其地址数量不够用的问题。尽管多种技术被应用于延缓IPv4地址枯竭的问题,但仍无法改
当前,Web服务的规模不断增大,具有相同功能的Web服务也开始大量出现。当用户发起功能请求时,很难在众多同功能的Web服务中快速的挑选出服务质量较好的Web服务。与此同时,由于
光栅图像的矢量化表示是数字图像处理领域中的热点问题,在数字图像处理、编辑以及在动画制作等方面有着广泛的应用前景。随着网络和通信技术的发展以及手持终端的普及,越来越
随着信息技术和互联网的快速发展,各行各业都将网站和信息系统应用于生产经营活动过程中。现代信息技术为企业发展提供了强大的支撑。在高度依赖计算机和网络的今天,网站被篡
LTE-A(Long Term Evolution-Advanced,高级长期演进)系统已经成为了国际主流通信标准,为了国家安全起见,国家安全部门需要采用第三方仪表对一些用户进行合法的监听,因此有必
俄罗斯的众多作家对俄罗斯民间文化有着独特的情怀。如普希金、果戈理。这些独具特色的俄罗斯民间文化因素既增加了作品的内涵,也成为作家表达个人思想的一种方式。鲍里斯·
随着物联网技术的不断发展,无线传感器网络的应用前景非常广泛,人们对其应用场景和网络性能要求也愈发严苛。在某些特殊应用场景中,要求在保证网络高可靠性的同时,也能保证较