论文部分内容阅读
广泛迅捷的分享和交换信息是互联网最重要的优点之一,然而随着互联网中承载的数据量和信息量呈指数级爆炸式增长,导致人们必须面对日益严重的信息过载问题。在该背景下信息检索技术应运而生并随着互联网一起迅猛的发展,成为当前解决信息过载问题最直接和有效的手段。同时查询理解和相关反馈技术是近几年被广泛验证的用于改善信息检索性能的有效途径,尽管现有研究已经取得了一些重要进展,但是仍然有很多关键的问题没有得到很好的解决。针对现有研究中存在的种种不足,本文在分析当前各查询理解和相关反馈算法基础上,重点对查询理解技术以及以其为基础的相关反馈技术进行了深入的研究。本文的主要研究工作和贡献如下:1.针对查询理解技术中的词项权重预测问题,本文将其转换为序列标注问题,提出了一种新的基于循环神经网络的查询词项权重学习模型。该模型通过综合考虑查询中各词项的统计、语法、语义以及词项间关系信息构造查询词项特征向量,同时利用遗传算法结合真实文档相关性标注得到最优词项权重值,最后利用双向循环神经网络对查询词项序列与相应最优权重序列之间的关系进行有监督学习建模,实现了对查询词项权重自动、合理和有效地预测。实验结果表明,通过该方法得到的查询词项权重能够明显地提升检索效果,并且在多个数据集和检索结果准确率评价指标上均显著地优于各对比方法。2.针对查询理解技术中现有查询意图分类方法普遍存在的严重依赖人工标注数据和面对类别体系变化不灵活的问题,本文将其转换为由一个序列分类问题和一个经典分类问题组成的两阶段分类问题,并根据该分类问题的特点,提出了一种新的基于级联深度学习的查询意图分类方法。该方法首先从提高分类灵活度和效率的角度出发,提出了一种级联的深度神经网络,构造了一个两阶段查询意图分类器;然后从降低对人工标注依赖的角度出发,通过隐式相关反馈技术挖掘源于真实用户的标注行为,实现了查询分类训练数据的自动构造。实验结果表明,该方法能够有效的对查询按主题意图进行分类,且分类效果显著的优于各对比方法。3.针对现有基于查询扩展技术的相关反馈方法对检索系统查询日志及其中查询词项间关系挖掘不足的问题,本文从充分利用检索系统查询日志进行查询扩展的角度出发,提出了一种新的基于两阶段SimRank算法和查询扩展技术的相关反馈方法。该方法通过引入权重关系改进了基于图结构的相似度算法SimRank,并使用改进算法在由查询点击图经多次转换得到的词项关系图上全面深入地挖掘词项间相似度及语义关联,从而筛选出高质量的查询扩展词项。通过在公开标准数据集上的实验表明该方法可以有效地选择高质量相关扩展词项,使得检索效果有显著的提升。4.针对现有基于语言模型的相关反馈方法未能同时充分利用正向和负向相关信息的问题,本文从充分利用隐式反馈和同时挖掘正负两种相关信息的角度出发,提出了一种新的基于语言模型的正负双向相关反馈方法。该方法通过分析疑难查询场景下隐式反馈的正负双向相关文档,基于语言模型检索框架,同时构造正向和负向相关语言模型,并利用正向模型进一步优化负向模型,最大化地提高相关文档排名并尽量过滤非相关文档,从而改善反馈检索的效果。通过基于多个TREC标准数据集的实验验证了该相关反馈方法的有效性,且效果显著优于仅使用正向或负向相关信息的相关反馈方法,使得反馈检索效果有显著的提升。通过以上四个方面的研究,能够得到一个利用查询理解和相关反馈技术改善信息检索整体过程的解决方案,帮助信息检索系统提升检索效果并改善用户体验。