搜索引擎的相关性排序算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:QQ329431503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机系统性能的提高和网络技术的不断进步,万维网成为全球最大的信息资源库,如何为如此庞大的信息资源提供高效的导航服务,帮助用户在海量的数据中快速找到需要的信息是搜索引擎亟待解决的问题。通常用户只关心搜索引擎返回的排在前面的结果,然而当前搜索引擎返回的查询结果与用户需求的相关程度并不理想。于是搜索引擎的相关性排序--按照与用户查询的相关程度对搜索引擎的索引文档进行排序,成为当前研究的重点和热点。本文首先研究了文本搜索引擎的相关性排序模型,并为自学习排序模型提出一种构造训练集的方法。然后研究了图像搜索引擎的相关性排序问题,重点介绍了图像重排序的方法,并提出一种度量图像相似性的方法。本文对搜索引擎的相关性排序方法进行了深入的研究,主要工作和创新之处归纳为以下几点:(1)文本搜索引擎的相关性排序模型,包括布尔模型,向量空间模型,概率模型,超链接模型,自学习排序模型,其中自学习排序模型将机器学习的方法运用到搜索引擎的相关性排序问题,解决了以往模型的许多不足之处。(2)为自学习排序模型构造训练集。自学习排序是一种有监督的机器学习算法,模型的性能很大程度上依赖训练集。构造训练集需要对给定的查询,人工标注文档与该查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。本文提出一种同时考虑查询的难度,密度和多样性的贪心算法从海量的查询中选择有信息量的查询进行标注。实验表明本文提出的方法能构造一个规模较小且有效的训练集。(3)图像重排序算法。现今的图像搜索引擎主要利用图像周围文本信息为图像排序,没有考虑图像本身的特征。图像重排序是在文本搜索结果的基础上,通过挖掘图像视觉特征的内在关系,对原始搜索结果进行重新排序,使新的序列更能满足用户搜索需求。(4)图像相似性度量。在图像重排序算法中图像相似性的度量至关重要。一般我们通过计算图像视觉特征的相似性来估计图像的相似性。图像视觉特征包含全局特征(如颜色,纹理,形状)和局部特征(如尺度不变特征)。然而现有的相似性度量没有考虑针对不同的查询词,图像的相似性应该不同。本文提出一种与查询相关的相似性度量方法,把基于全局特征的相似性,基于局部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出与查询词相关的图像信息,计算相似性。实验结果表明本文提出的相似性度量方法优于基于全局特征,局部特征,或它们线性组合的相似性。
其他文献
公共文化设施一体化建设是现代政府公共服务的重要组成部分,是现代公共文化服务体系的重要方面。科学推进公共文化设施一体化建设,是大力发展先进文化,实现现代文明由城区向
供应链管理的绩效评价对于供应链运作和管理至关重要,运用科学、先进的评价方法正确评价供应链绩效成为供应链管理迈向成功的关键.文章在对供应链及供应链管理的概念介绍的基
目前,全国许多汽车企业尚无法系统、真实地反映紧固件在企业的使用状况,产品工程师只是根据各自零部件的需要而自行设计和选用紧固件,这样易造成工程师查询、选用紧固件困难,
期刊
<正>随着我国医疗卫生改革的发展和深入,为医院发展带来了前所未有的机遇。在市场经济体制下,患者的法律意识、自我保护意识以及对医疗服务质量的要求日益增强,以致医疗纠纷
3G技术给移动数据业务带来了新的契机,移动数据平台作为典型的双边市场平台,其定价问题日渐成为研究的热点。国内外学者对于双边市场已有很多方面的研究,如双边的不对称定价
<正>服务和客户体验出发,产品安装简便,功能实用,操作容易,是智能家居企业成功与否的关键所在智能家居作为一个整合的系统,其最终的价值是为客户带来数字化、网络化、智能化
<正>在全面推进实施制造强国战略的征途中迈出了关键性一步,中国制造也再次站到了转型升级、创新驱动的风口上制造业是国民经济的主体,是立国之本、兴国之器、强国之基。5月1
工业革命以来,世界制造中心和技术创新中心在全球范围内经历了多次变迁。英国、德国、美国、日本都曾经或仍然充当着这“两个中心”的角色。目前,中国已经成为名副其实的世界
人格是个体所具有的与他人相区别的独特而稳定的思维方式和行为风格,它表现一个人在不断变化中的全体和综合,是具有动力一致性和连续性的持久的自我。内外控人格特质是最受管