面向百科知识库的实体-引文相关性分类技术研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:a1402070128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
百科知识库(如Wikipedia、百度百科)对百科知识的整理和应用具有重大意义。百科知识库不仅成为人们日常搜索知识的主要平台,而且还为许多应用提供知识来源。据统计,相对于实体的最新信息,知识库编辑人员更新实体内容的时间平均晚于一年。百科知识库内容的滞后性成为制约其应用的主要瓶颈。2012年,国际文本检索大会发起了知识库累积引文推荐评测任务,吸引了众多国际知名大学和研究机构的参加,旨在缓解知识库实体内容严重滞后的问题,其核心任务是实体与引文的相关性分析。实体与引文相关性分析目前成为知识库加速研究的热点之一,对该问题的研究不仅可以大幅度地充实完善在线百科知识库中的信息,提高用户的知识库使用体验,更可即时发现并更新实体的相关内容,为智能搜索引擎、知识问答、实体检索、热点发现、舆情跟踪、个性推荐等应用提供知识支持。根据引文与目标实体相关的不同等级,先前解决实体与引文相关性分析的方法,主要有两类,分别是分类方法和排序方法。这些方法都设计了丰富的人工特征,并使用了强大的机器学习模型,在某些方面取得了一定的成果,但性能依然不是十分理想,仍然需要对其进行深入研究。本文视实体与引文相关性分析的任务为分类任务,称为面向百科知识库的实体-引文相关性分类,是从文本大数据流中发现同百科知识库实体相关的引文,并根据相关程度对实体-引文进行分类。其主要研究内容和创新点如下:(1)提出基于目标实体突发特征的文本表示模型。已有研究使用了实体查询的简单数量统计,其证明时序特征在百科知识库引文推荐任务中有重要作用。本文提出了基于实体突发特征的文本表示模型,既考虑目标实体的突发特征,又考虑实体与引文的语义特征,构建引文文本的表示模型。实验结果表明基于实体突发特征的文本表示模型能显著提升实体-引文相关性分类性能。(2)实体-引文类别依赖的混合分类模型。实体-引文相关性分类任务,本质上是针对实体-引文对的分类任务。因此当实体的类别信息和引文的类别信息相似或相近时,引文更有可能成为目标实体主页的最终参考文献。本文提出实体-引文类别依赖的判别混合模型,同时考虑实体和引文的先验类别信息,利用混合模型把先验信息和语义信息组合起来。实验表明,实体-引文类别依赖的混合模型不仅可以灵活处理多样性的实体-引文对,同时也能处理未在训练集中出现过的实体-引文对,具有极强的泛化能力。(3)融入偏好信息的分类模型。相对于实体、文本的数量和多样性,标注数据是十分有限的。尽管标注数据耗费大量的人力、物力和财力,但其具有极高的价值。因此充分挖掘标注数据中蕴含的有效信息,可以提高分类性能。本文提出偏好增强的支持向量机模型,不仅考虑不同类别样本之间的差异信息,还考虑同类样本之间的偏好信息,构建融入偏好信息的SVM模型,来优化SVM的优化目标。实验结果表明,融入偏好信息的支持向量机模型可以有效提升分类性能,具有普适性。(4)实体-引文联合的深度网络分类模型。先前的工作集中在如何设计实体-引文的特征,以及选择适合特征的模型。其中设计特征需要领域专家花费大量的精力来完成,不具有普适性。分布式表达(Distribution Representation)给实体和引文的表示带来新思路,也成为深度学习解决自然语言处理和信息检索的基础性工作。本文提出实体-引文联合的深度神经网络分类模型,利用深度学习模型自动学习实体和引文的潜在特征,以端到端的方式解决实体-引文相关性分类任务。实验结果表明提出的模型能有效提升实体-引文相关性分类性能,同时提供了用深度模型来解决实体-引文相关性分类任务的新思路,具有极大的研究价值。
其他文献
基于导航卫星的星地双基地差分干涉合成孔径雷达(Global Navigation Satellite System based Bistatic Differential Interferometric Synthetic Aperture Radar,GNSSBi DIn
文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的文本相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法
在线社交网络的快速发展,使得网络用户可以从中获取大量的信息。近年来,无线通信技术和定位技术的发展进一步增强了社交网络服务,允许用户通过移动设备进行在线签到并在社交
随着工业技术的发展,多机器人系统目前已在工业操作、巡逻侦察、灾情救援、环境勘探、智能物流、智能农业,和消费娱乐等方面有了长足的发展。智能体(Agent)的概念为无人车、
半导体量子点,具有溶液法制备、光谱可调节、发射峰窄等特点,在广色域显示中表现出应用前景。目前正在产业化的CdSe或InP量子点,一般采用“热注入”合成及厚核壳结构,存在制
目标跟踪技术作为计算机视觉领域的关键技术,被广泛应用于视频监控、智能交通、人机交互、军事、医疗以及增强现实等领域。近十年来,国内外研究人员对目标跟踪技术进行了深入
随着互联网技术的发展,以并行、结构化方式构成的分布式、多层次异构的组织主体系统(Orangniational-agent System)得到了广泛的应用,例如:动态构件系统(Dynamic Component O
21世纪中对人类社会影响最大的资源之一就是能源,而开发可再生的清洁能源成为了我们首选的目标之一,与此同时对于这些能源的存储与利用需要大量的电池设备。锂离子电池作为当
本文基于对自然界现象的仿生模拟,结合对表面浸润性的理论研究,在各种基底表面,包括金属材料、碳毡材料、PU海绵等,可控制备了不同浸润性的表面。表面微纳米阶层结构,和较低
在多智能体系统协调控制研究中,随着对线性系统协调控制理论的不断完善,学者们逐步将更多的注意力转移到了非线性系统上。由于Lagrangian系统能够代表许多机械系统,且其模型