互联网信息检索中的多样化排序研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ZWH815117176
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,互联网已成为目前世界上最大的信息库。互联网信息检索系统的诞生,为几们从互联网上获取信息提供了巨大的便利。然而随着信息检索研究的不断深入,许多学者逐渐意识到了一个影响用户检索满意度的重要因素——用户的多样化需求。而传统的排序模型无法满足这样的需求,于是产生了信息检索领域一个新的研究热点——多样化排序。用户的多样化需求要求信息检索系统在对检索结果进行排序时,必须挖掘用户查询所蕴含的各种潜在意图,在结果列表靠前的位置中尽可能地提供满足用户各种需求的检索结果。在用户潜在意图集合未知的情况下,如何根据用户提交的查询词对结果文档进行排序,从而最大化用户的满意度,是多样化排序问题研究的核心问题和难点。现有的研究成果主要可以归纳为两类:隐式多样化排序和显式多样化排序。它们分别从两种不同的角度对多样化问题进行剖忻和解决,前者大多基于一定的假设,刻画不同文档在信息面蕴含上的差异,在此基础上选择具有差异性的文档子集实现多样化;后者则大多尝试直接对用户潜在意图集合进行估计,在此基础上选择能够满足不同意图的文档子集实现多样化。本文以互联网信息检索中的多样化排序及直用为研究主线,分别从上述两种不同的角度对多样化排序问题进行分忻和解决。首先,从隐式多样化排序方法的关键问题——信息面蕴含的差异性入手,分别从文档相似度比较和信息空间覆盖的角度提出了两种多样化排序方法,一定程度上改善了现有方法容易导致的排序结果冗余问题;然后,从显式多样化排序方法的关键问题——用户潜在意图集合估计入手,提出同时从系统和用户的角度对潜在意图集合进行估计,以获得更好的多样化排序结果;最后基于上述研究成果构建了一个多样化排序系统。本文的刨新主要体现在以下几点:1、提出了一种基于吸收马尔可夫随机游走的多样化排序算法DAlIAR。该算法从文档相似度比较入手,针对现有排序算法Gasshopper的相似度比较策略容易导致排序结果冗余的问题,采用了一种新的文档相似度比较策略,该策略利用了吸收马尔可夫链中状态吸收时间的特性,可以更合理地表示文档在主题蕴含上的差异。实验结果表明,DArAR算法的多样化效果要优于Gasshopper算法。2、从隐式多样化排序方法的出发点入手,把多样化问题形式化为文档集合效用最大化问题,并分析了该问题的NP难特性,证明了目标函数的次模性。在此基础上,提出了一种基于文档相似度比较的多样化排序框架,并对该框架的性能进行理论分忻。该工作一定程度上完善了多样化排序问题研究的理论体系。3、提出了一种基于关键词的多样化排序原型KED。该原型从信息空间覆盖的角度入手,提出用关键词作为与用户查询相关的信息空间的基本元素;针对现有方法只独立考虑词的重要性所可能带来的冗余问题,首次提出对关键词之间的距离进行建模,以刻画关键词在主题蕴含上的差异。实验表明,KED可以较稳定地获得比现有多种隐式多样化排序方法更好的多样化效果;且相比单词,KED抽取的关键词可以明显提高KED的多样化效果。4、提出了一种基于网页主题聚类和用户点击的在线多样化排序算法cRBA。该算法从用户潜在意图集合估计入手,首次提出同时从系统和用户的角度对潜在意图集合进行估计,先利用主题聚类从系统的角度获得对潜在意图集合一个较粗略的估计,然后通过与用户的交互逐渐获得对用户意图的较好估计,从而动态调整文档排序,以满足用户的各种需求。该算法的有效性在实验中得到验证。此外,文中还证明cRBA算法在最坏情况下的性能在一定条件下存在下界。5、设计并实现一个多样化排序系统。该系统既可以利用现有搜索引擎强大的检索能力,又能对搜索结果进行多样化排序,具有一定的实用价值。
其他文献
本文论述了针对《机械图样识读》这门课程的重点、难点,在教学过程中,采用灵活多样的教学方法,可以取得事半功倍的教学效果。
随着我国教育部门改革的持续推进,现阶段我国高校的各个部门都在进行着相关的改革,高校干部人事档案管理方面正面临着信息化的改革。高校干部人事档案信息化建设对于促进高校档
近年来,低位直肠癌行各种保肛术发展较快,显著提高了患者术后生活质量,其远期效果与Milse手术类似,已得到公认。我科于2003年1月至2006年1月对低位直肠癌患者采用双吻合器行
目的分析血液透析留置导管护理风险的原因与风险管理对策。方法选择2016年2-10月于我院实施血液透析留置导管的79例患者为对照组,再选择2017年1-9月于我院实施血液透析留置导
茶文化是我国传统文化中的重要组成部分,涵盖了我国儒释道及诸子百家的内涵精髓。千百年来,在意识形态领域为人们提供着源源不断的养分,其中蕴含的哲学思维,至今为人们的思想
第一编农作物 前言 一,本索引按内容分为农作物、农业工具、农田水利、农作图、家禽(附蚕桑、渔业)等五编,每编再分为若干类。本编“农作物”已在1987年1期、1993年1期发表,本期发表的主要是
随着年龄的增长,机体代谢能力发生改变,血管弹性下降,从而可导致心血管疾病、糖尿病、肾脏病及甲状腺等疾病的发生率逐渐升高,这些疾病在孕期对母胎健康存在风险,孕前调控更
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
意象图式作为隐喻的认知基础,在隐喻构建、转喻映射中源域与目标域的建构以及隐喻与转喻互动中起着重要的作用。主要从意象图式的角度,对中美教育语篇进行实例对比分析,归纳
目的:利用数理统计方法探讨影响妊娠期高血压疾病进展的相关因素。方法:对223例妊娠期高血压疾病患者进行回顾性研究,以妊娠高血压、先兆子痫轻度、先兆子痫重度和子痫作为有序