论文部分内容阅读
百科知识库(如Wikipedia、百度百科)对百科知识的整理和应用具有重大意义。百科知识库不仅成为人们日常搜索知识的主要平台,而且还为许多应用提供知识来源。据统计,相对于实体的最新信息,知识库编辑人员更新实体内容的时间平均晚于一年。百科知识库内容的滞后性成为制约其应用的主要瓶颈。2012年,国际文本检索大会发起了知识库累积引文推荐评测任务,吸引了众多国际知名大学和研究机构的参加,旨在缓解知识库实体内容严重滞后的问题,其核心任务是实体与引文的相关性分析。实体与引文相关性分析目前成为知识库加速研究的热点之一,对该问题的研究不仅可以大幅度地充实完善在线百科知识库中的信息,提高用户的知识库使用体验,更可即时发现并更新实体的相关内容,为智能搜索引擎、知识问答、实体检索、热点发现、舆情跟踪、个性推荐等应用提供知识支持。根据引文与目标实体相关的不同等级,先前解决实体与引文相关性分析的方法,主要有两类,分别是分类方法和排序方法。这些方法都设计了丰富的人工特征,并使用了强大的机器学习模型,在某些方面取得了一定的成果,但性能依然不是十分理想,仍然需要对其进行深入研究。本文视实体与引文相关性分析的任务为分类任务,称为面向百科知识库的实体-引文相关性分类,是从文本大数据流中发现同百科知识库实体相关的引文,并根据相关程度对实体-引文进行分类。其主要研究内容和创新点如下:(1)提出基于目标实体突发特征的文本表示模型。已有研究使用了实体查询的简单数量统计,其证明时序特征在百科知识库引文推荐任务中有重要作用。本文提出了基于实体突发特征的文本表示模型,既考虑目标实体的突发特征,又考虑实体与引文的语义特征,构建引文文本的表示模型。实验结果表明基于实体突发特征的文本表示模型能显著提升实体-引文相关性分类性能。(2)实体-引文类别依赖的混合分类模型。实体-引文相关性分类任务,本质上是针对实体-引文对的分类任务。因此当实体的类别信息和引文的类别信息相似或相近时,引文更有可能成为目标实体主页的最终参考文献。本文提出实体-引文类别依赖的判别混合模型,同时考虑实体和引文的先验类别信息,利用混合模型把先验信息和语义信息组合起来。实验表明,实体-引文类别依赖的混合模型不仅可以灵活处理多样性的实体-引文对,同时也能处理未在训练集中出现过的实体-引文对,具有极强的泛化能力。(3)融入偏好信息的分类模型。相对于实体、文本的数量和多样性,标注数据是十分有限的。尽管标注数据耗费大量的人力、物力和财力,但其具有极高的价值。因此充分挖掘标注数据中蕴含的有效信息,可以提高分类性能。本文提出偏好增强的支持向量机模型,不仅考虑不同类别样本之间的差异信息,还考虑同类样本之间的偏好信息,构建融入偏好信息的SVM模型,来优化SVM的优化目标。实验结果表明,融入偏好信息的支持向量机模型可以有效提升分类性能,具有普适性。(4)实体-引文联合的深度网络分类模型。先前的工作集中在如何设计实体-引文的特征,以及选择适合特征的模型。其中设计特征需要领域专家花费大量的精力来完成,不具有普适性。分布式表达(Distribution Representation)给实体和引文的表示带来新思路,也成为深度学习解决自然语言处理和信息检索的基础性工作。本文提出实体-引文联合的深度神经网络分类模型,利用深度学习模型自动学习实体和引文的潜在特征,以端到端的方式解决实体-引文相关性分类任务。实验结果表明提出的模型能有效提升实体-引文相关性分类性能,同时提供了用深度模型来解决实体-引文相关性分类任务的新思路,具有极大的研究价值。