基于AdaRank的信息查询扩展模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wenjun_wu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在互联网上的网页数目与日俱增,速度发展之快,始料未及。使得人们在摆脱了信息匮乏的困境之余,又陷入了“信息过量”的境地。由于从互联网的海量信息中寻找有用知识的信息检索技术的发展跟不上信息增长的速度,造成了所谓的“信息虽发达,知识却贫乏”的局面。   互联网网页的信息组成有文本,图片,音频,视频,flash等各种形式。文本是其中最重要的组成部分之一,其中包含了大量的信息,如图书馆的目录、作者、内容信息的查询,论坛的帖子查询,都运用到了文本信息检索的知识,但因为其为自然语言表达,难以为机器所理解,从而使得人们在获取信息的时候很难准确地获得自己所需。为此,很多人提出了各种文本信息检索模型,以期更准确地搜寻到更多用户所需的信息。   本文的主要工作体现在以下几个方面:   (1)对信息检索的经典模型、基于统计语言的信息检索模型、基于机器学习的信息检索模型,以及查询扩展模型进行了比较系统的调查研究。分析并总结了现有查询扩展模型中存在的一些不足之处。   (2)在分析了现有查询扩展模型中存在的不足的基础上,提出了一种获取有效查询扩展词的算法,即VECO算法。该算法能成功地找出与用户查询相关度很高的查询扩展词,从而将查询扩展词获取的过程转换成为一个可评价的候选查询扩展词排序问题(原有查询扩展词获取的过程是一个不可评价的候选查询扩展词排序问题)。   (3)在研究了新涌现的一批基于机器学习的信息检索模型的基础上,我们选择了其中一种模型——AdaRank模型来进行候选查询扩展词的排序,该模型的参数可完全通过训练获得,解决了原有查询扩展模型参数需要通过穷举法调试得出的问题,最终实现了一种基于AdaRank的查询扩展模型。   最后,我们通过实验证明了VECO算法是一种有效的获得有效扩展查询词的算法,使用此算法获得了与用户查询相关的查询扩展词,并在此基础上,实现了基于AdaRank的查询扩展模型,并通过实验验证了该算法在多个数据集上的有效性,以及可扩展性。
其他文献
知识图谱是人工智能技术发展进程中的一大进步,它把非结构化与半结构化数据组织成了同时易于人类与机器理解的图结构,为机器实现智能化提供了知识上的支持。近年来,知识图谱技术
目前,(?)Veb Services技术正受到产业界和学术界越来越多的关注,其应用也越来越广泛,出现了不少功能相同或相似的Web服务。在功能驱动的Web服务组合中,代表非功能属性的QoS与
随着当今网络通信技术的高速发展,网络规模不断的扩大,复杂度不断的增加,如何可视化的管理如此庞大、复杂的网络,成为网络管理系统面临的一项重大任务。可视化的管理可以分为
对密文关系的查询处理是DAS模型面临的主要问题之一。目前,现有加密方案和索引方法均存在查询命中率低的缺陷,造成了不必要的网络堵塞。减少查询结果中冗余数据的数量是解决
系统发生分析领域的多序列比对和系统发生树构建等问题都是NP-难问题。本文针对这些问题,对蚁群算法进行性能改进及参数分析,提出两种改进蚁群算法;并基于蚁群算法提出两种多
空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因子大。该特点限制了六子棋程序中博弈树搜索
网络的发展日新月异,很多普通的用户都可以通过网络来查找所有它们感兴趣的信息。关键字检索这种方式正是普通用户用来查找它们感兴趣信息的主要方式,因为关键字检索并不需要
随着现代企业的发展和国际化的趋势,企业越来越认识到Web应用的重要性。伴随着SaaS、PaaS等业务发展模式的兴起,将企业Intranet内使用的Web应用迁移到Internet环境中已成为一
目前网络的快速发展,信息化程度的提高,数据库的应用越来越多,而数据库版权保护问题也越加被重视。如何在不破坏数据库可用性的前提下,达到保护数据库安全的目的,已成为数据
随着海洋技术的发展和海洋工作的不断深入,海洋数据快速增加,同时数据源也愈加丰富,数据类型变得异常复杂。因此,为了实现对海洋数据的集中、有效的管理,能够快速准确地提供各种服