基于查询词依赖性的查询扩展语言模型

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhouqin1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索中基于相关反馈的查询扩展语言模型因其能够有效地提高查询效率而得到广泛应用。传统上,有些检索模型都做了独立性假设,即索引词之间是独立的,从而对文档和查询进行简单匹配,这样的检索效果都不佳。也有检索模型对两两查询词之间的依赖性进行了考察,但缺乏对多个查询词之间依赖性的考量。本文提出了基于查询词依赖性的查询扩展语言模型,将查询词进行分解,得到原查询词的子集,研究不同查询词组合之间的依赖性问题。运用隐马尔科夫模型(Hidden Markov Model,HMM)考量查询词之间的相互依赖关系,用Viterbi算法优化模型中的参数。在检索过程中,通过考察不同的查询词组合之间的依赖关系来扩展原始查询,使得原始查询得到更加丰富而又可靠的扩充,从而有利于提高检索效果。经过查询扩展后,我们用了两种方法AHMM-I和AHMM-II将原始查询模型和扩展模型集成。AHMM-I方法是传统的线性插值方法,而AHMM-II是自动学习方法。通过这两种方法的比较,实验结果表明我们提出的自动学习方法在原始查询模型和扩展模型的集成上有一定的创新性。本文实验运用了相关反馈和伪相关反馈,选取了TREC下3个标准测试集AP88-90,ROBUST2004,WT10G完成实验。采用KL基本模型,将我们的模型和已有的RM1,RM2,AM和LCE等模型进行对比,我们的评价标准是MAP,同时我们也分析了各个模型的鲁棒性,鲁棒性越高的模型检索性能越好。同时我们研究文档预处理时在滑动窗口大小不同的情况下,模型表现出的检索性能。实验结果表明,我们的模型整体表现最优,在很大程度上提高了检索效率。
其他文献
计算机犯罪的高技术特性使取证科学产生了一个新的分支即计算机取证。与传统取证不同的是,计算机取证收集、分析的数据是计算机运行过程中所产生的数据。事件重建是计算机取证
近年来,随着网络技术的迅速发展和J2EE平台的广泛采用,基于B/S的多层Web体系结构逐渐发展成熟起来。MVC设计模式分离了数据的控制和数据的表现,在实现多层Web应用系统中具有明显
计算机和互联网技术的快速发展和推广,给人们的生活带来了极大的便利,但是随之而来的负面影响也是人们所始料不及的,以计算机系统为对象或工具、通过网络进行的新型犯罪活动——
近年来,随着移动通信技术的迅猛发展,移动通信已经走进3G时代。基于位置的服务LBS是随着移动通信技术的进步而发展起来的增值业务,无线定位技术对于3G网络的重要性已得到广泛认
组合拍卖是解决各种资源分配问题的有效机制,随着电子商务的发展,组合拍卖机制发展成为一种新的多方交互与决策的电子谈判模式,是当前电子商务的一个重要应用领域。组合拍卖问题
相变是指材料在一定温度和压力等条件下发生的物相的转变。相变前后,材料的微观结构发生变化,从而引起宏观性质的显著改变。对相变现象的研究具有理论意义和工程价值。在核工业中,锆因其高熔点、高硬度、低热中子吸收截面等优良的材料特性得到了广泛应用。常温下,锆晶体处于密排六方结构。升温时发生固态相变,转变为体心立方结构。继续升温则会熔化。本文使用分子动力学方法,对温度引起的单晶锆的固态相变和熔化这两类典型相变
由于XML数据具有不同于传统数据形式的特点,使得传统的数据库技术不能有效地发挥作用,因此需要针对其特点研究新的处理方法。作为XML数据处理中最重要问题之一的查询操作已经
随着互联网的发展,社交网络也逐渐成为人们交流和获取信息的重要渠道。其中,国外最具有代表性的社交网络是Facebook和Twitter,而国内最具代表性的则是新浪微博和腾讯微博等。
电信系统的网管软件在国外早已有一些著名的公司进行了研发,并达到了比较大的规模;国内的网管软件的研发虽然起步相对较晚,但比较切实国内网管软件市场的需求,从而得到了快速的发
随着用户对通信业务需求的不断提高,下一代移动通信系统的数据速率将会大大提高,人们已经把目光越来越多地投向第四代(4G)移动通信系统中。实践证明,CDMA与正交频分复用(OFDM)技