论文部分内容阅读
近年来,随着互联网数据规模的持续增长,信息检索技术得到广泛关注,并被应用于多种垂直领域检索场景。信息检索旨在根据用户查询,在大规模数据中查找与查询相关的文档或网页,并根据其相关程度给出相应的排序列表。而用户提交给搜索引擎的查询往往仅包含少量关键词,很难全面描述用户的信息需求,进而对查询意图的理解带来模糊性和不确定性,因此,如何准确有效地理解用户查询对于检索性能的提升至关重要,也是信息检索性能优化的核心方向之一。为精确地理解用户查询,提升检索性能,本文从如下三个方面展开研究,具体内容包括:1、针对伪相关反馈中的扩展词选择问题,提出一种基于伪相关反馈的扩展词排序模型。该模型以伪相关反馈方法为基础,将排序学习作为核心技术,通过监督学习构建候选扩展词排序模型,用以选择最符合用户信息需求的扩展词,补充和完善原始查询,提高扩展查询的质量。在模型构建中,分别对候选扩展词选择、扩展词相关性标注、扩展词特征抽取和排序模型构建等方面给出具体优化策略,并基于三个标准TREC检索数据集展开实验,实验结果表明本文方法能够有效提升通用领域信息检索的性能。2、针对生物医学文献检索中的查询理解问题,提出一种面向生物医学文献检索的扩展词排序模型。该模型以现有基于伪相关反馈的扩展词排序模型为基础,融合生物医学领域知识,优化候选扩展词选择和特征抽取,并基于查询主题信息标注候选扩展词相关性。在模型构建中,提出一种基于词项分组的候选扩展词排序方法,该方法以组排序学习为基础,优化生物医学扩展词排序的样本空间。在两个标准TREC生物医学文献检索数据集上的实验结果表明该方法能够有效提升生物医学文献检索的性能。3、针对代码信息检索中的查询理解问题,提出一种面向代码信息检索的扩展词排序模型。该模型以基于伪相关反馈的扩展词排序模型为基础,融合代码片段和代码文件相关信息,优化候选扩展词选择、候选扩展词特征抽取以及候选扩展词相关性标注策略。在模型构建中,提出一种基于查询级排序自编码算法的扩展词排序模型,该模型采用查询级自编码算法优化排序学习特征空间,以提高扩展词排序的准确率。在现有代码片段检索数据集上的实验结果表明该方法能够有效改善代码信息检索的性能。本论文研究工作面向信息检索中的查询理解问题,构建扩展词排序模型,并将其应用于两类垂直检索任务,改进了查询扩展中扩展词选择效果,有助于更加准确地理解用户检索意图,同时,该研究也可以推广并应用于其他相关检索任务。