查询理解与正负双向相关反馈技术研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:xiao137wu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广泛迅捷的分享和交换信息是互联网最重要的优点之一,然而随着互联网中承载的数据量和信息量呈指数级爆炸式增长,导致人们必须面对日益严重的信息过载问题。在该背景下信息检索技术应运而生并随着互联网一起迅猛的发展,成为当前解决信息过载问题最直接和有效的手段。同时查询理解和相关反馈技术是近几年被广泛验证的用于改善信息检索性能的有效途径,尽管现有研究已经取得了一些重要进展,但是仍然有很多关键的问题没有得到很好的解决。针对现有研究中存在的种种不足,本文在分析当前各查询理解和相关反馈算法基础上,重点对查询理解技术以及以其为基础的相关反馈技术进行了深入的研究。本文的主要研究工作和贡献如下:1.针对查询理解技术中的词项权重预测问题,本文将其转换为序列标注问题,提出了一种新的基于循环神经网络的查询词项权重学习模型。该模型通过综合考虑查询中各词项的统计、语法、语义以及词项间关系信息构造查询词项特征向量,同时利用遗传算法结合真实文档相关性标注得到最优词项权重值,最后利用双向循环神经网络对查询词项序列与相应最优权重序列之间的关系进行有监督学习建模,实现了对查询词项权重自动、合理和有效地预测。实验结果表明,通过该方法得到的查询词项权重能够明显地提升检索效果,并且在多个数据集和检索结果准确率评价指标上均显著地优于各对比方法。2.针对查询理解技术中现有查询意图分类方法普遍存在的严重依赖人工标注数据和面对类别体系变化不灵活的问题,本文将其转换为由一个序列分类问题和一个经典分类问题组成的两阶段分类问题,并根据该分类问题的特点,提出了一种新的基于级联深度学习的查询意图分类方法。该方法首先从提高分类灵活度和效率的角度出发,提出了一种级联的深度神经网络,构造了一个两阶段查询意图分类器;然后从降低对人工标注依赖的角度出发,通过隐式相关反馈技术挖掘源于真实用户的标注行为,实现了查询分类训练数据的自动构造。实验结果表明,该方法能够有效的对查询按主题意图进行分类,且分类效果显著的优于各对比方法。3.针对现有基于查询扩展技术的相关反馈方法对检索系统查询日志及其中查询词项间关系挖掘不足的问题,本文从充分利用检索系统查询日志进行查询扩展的角度出发,提出了一种新的基于两阶段SimRank算法和查询扩展技术的相关反馈方法。该方法通过引入权重关系改进了基于图结构的相似度算法SimRank,并使用改进算法在由查询点击图经多次转换得到的词项关系图上全面深入地挖掘词项间相似度及语义关联,从而筛选出高质量的查询扩展词项。通过在公开标准数据集上的实验表明该方法可以有效地选择高质量相关扩展词项,使得检索效果有显著的提升。4.针对现有基于语言模型的相关反馈方法未能同时充分利用正向和负向相关信息的问题,本文从充分利用隐式反馈和同时挖掘正负两种相关信息的角度出发,提出了一种新的基于语言模型的正负双向相关反馈方法。该方法通过分析疑难查询场景下隐式反馈的正负双向相关文档,基于语言模型检索框架,同时构造正向和负向相关语言模型,并利用正向模型进一步优化负向模型,最大化地提高相关文档排名并尽量过滤非相关文档,从而改善反馈检索的效果。通过基于多个TREC标准数据集的实验验证了该相关反馈方法的有效性,且效果显著优于仅使用正向或负向相关信息的相关反馈方法,使得反馈检索效果有显著的提升。通过以上四个方面的研究,能够得到一个利用查询理解和相关反馈技术改善信息检索整体过程的解决方案,帮助信息检索系统提升检索效果并改善用户体验。
其他文献
利用溶胶凝胶方法制备了六方密堆积结构(Zn1-xMgx)TiO3(x=0.1~0.4)固溶体.采用阿基米德排水法和微波频率下Hakki—Paoli法测定了不同Mg^2+添加量在不同烧结温度下的陶瓷体积密度和微波
城市规划是一种综合性的公共政策,它的目标非常明确,就是要有效地配置各种资源,减少投入、增加产出,最终实现社会利益最大化,推动城市的全面发展。
列车踏面制动过程是一个复杂的大位移、动态接触热-机耦合问题.介绍了热-机耦合问题的求解方法,首次对某提速客车的双面踏面制动过程进行了数值仿真.并定量给出了车轮速度和
对培养花样滑冰运动员自信心的重要性和花样滑冰运动员缺乏自信心的具体表现进行阐述,总结出培养花样滑冰运动员自信心的途径和手段,旨在消除其不良心理和情绪,树立自信心,以
微合金化是目前改善铝合金结构材料综合力学性能最为高效的方法之一。而如何有针对性地选择利用微合金化手段,实现更为有效的微合金化效果,并在更深层次理解微合金化作用机制
关键词识别系统是智能语音交互系统的重要组成部分.本文使用Google语音命令数据集,探索使用传统卷积神经网络和深度可分离卷积神经网络在关键词识别任务中的应用,对两种卷积
民国律师多以"大律师"自称,社会上对于律师也多以"大律师"相谓。然而,这个"大律师"却并非官方所规定的级别或尊号,而仅是民间的自娱而已,对于律师的执业资格并不产生实质性的影响近
期刊
在2019年LHC第二次停止运行期间,ALICE将对其内部径迹探测器ITS进行升级。在径迹探测器中,降低噪声不仅可有效提高能量测量精度,同时也能提高探测效率,因此低噪声是ITS升级的
目的建立鹿茸粉中提取鹿茸多肽的最佳提取工艺条件,为制剂的研发提供基础。方法采用L9(34)正交设计法,以鹿茸多肽提取率为评价指标,考察加水量、提取时间、提取次数三因素对
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield