论文部分内容阅读
近年来以实体搜索为特点的专业搜索引擎的竞争在如火如荼的上演,实体搜索技术的研究与应用已成为信息检索领域一个新的关注焦点。作为这种新搜索模式的典型代表,给出一个搜索关键词,专家搜索系统找出一些相关的专家而不是相关的文档或网页。可以说专家搜索引擎能够直接满足特定领域和范围用户的特殊信息搜索需求,这些需求是传统的网页级别信息检索方式很难满足的。专家搜索技术的研究将更直接地方便人们在生活、学习、科技开发、商用等各个领域的活动和工作。
专家搜索的核心技术是专家排序问题,即在大规模数据中如何对与查询相关的专家进行排序。近些年基于机器学习理论的排序学习方法越来越多的应用到信息检索中来解决排序问题。排序学习是通过对已标注数据进行学习,以在训练数据上经验风险最小作为优化目标,由此得到的排序模型来对未知数据进行排序预测。目前用于信息检索的排序学习方法建立在基于文本内容的信息检索模型之上,即假设待排序样本间没有关联,排序特征主要来源于文档自身的描述信息。
专家搜索作为一种新的搜索模式,其信息的组织方式和搜索性质与传统的信息检索不同。通过对专家搜索的整体过程进行分析,我们发现专家搜索中存在着由信息组织方式导致的同源样本间排序相关性以及由权威性搜索导致的样本间排序相关性。在真实数据实验中我们进一步发现这些基于实体关系的样本间排序相关性出现频率较高,如果简单的忽视这类信息可能丢失大量对搜索任务有效的信息,这是传统基于文本内容信息检索方法所不能弥补的。因此,将传统信息检索中基于文本内容排序学习模型直接用于专家搜索并不能很好的解决这一问题。
针对于专家搜索的特性,本文首次提出了实体关系网中专家搜索的排序学习问题,并对这一问题描述为这样的形式y=f(h,R),其中h表示基于文本内容的信息对专家排序的作用,R表示实体间关系对专家排序的作用,最终的排序模型f为融合基于文本内容和基于实体关系两类信息的综合的模型。本文还指出专家搜索中实体间关系模型R是在同类实体内部关系以及不同类实体的类间关系综合作用的结果,h、R以及两者合并的方式f都是未知的情况;同时针对这一问题提出了本文的解决思路:先确定实体关系网的作用方式R,然后设定基于文本内容的作用方式为线性排序模型的形式h(x;ω),之后通过寻找两者较优的融合方式进一步确定最终的排序模型f(h,R);在此基础上本文进一步提出了适用于实体关系网中专家搜索框架。
针对于专家搜索中实体关系网的作用方式,本文首次提出与查询相关实体权威度概念用于描述实体关系网的作用;同时在此基础上提出与查询相关实体权威度关系模型,该模型旨在通过模拟给定查询下样本间实体权威度传播的过程来对专家搜索中实体关系网的作用进行定性定量描述;接着本文迸一步提出一种基于齐次马氏链的方法用于求解给定查询下相关专家的实体权威度。
本文的研究目标为构建适用于实体关系网中专家搜索的排序学习模型。针对这一目标,本文首次提出了一种基于Boosting思想的实体关系网中专家搜索的排序学习模型。一方面该模型提供了一种多排序器集成的机制,有效的融合了基于本文内容的信息和基于实体关系的信息,使得两类信息协作地完成专家排序任务;另一方面来看,该模型继承Boosting算法的优点,通过迭代融合的方式逐步提高算法的排序精度,使得最终模型具有较高的排序性能。
除此之外,本文在真实数据集上完成整个论文中的实验,实现了从原始网页数据到得到专家搜索结果的全部过程。本文实验部分涉及到专家搜索数据准备部分、命名实体抽取部分、相关实体获取部分以及实体排序部分。最终实验结果表明本文所提出的实体关系网中专家搜索的排序学习方法能够非常有效的捕获到与查询相关的权威专家,与传统基于统计语言的模型和基于文本内容的排序学习模型相比序列顶部的排序性能(MAP)以及序列整体的排序性能(Bpref,P@5…P@1000)都有明显优势。