基于云模型理论的文档重排方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:shaoqing5320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机以及互联网技术在我国信息化建设方面取得了自订所未有的普及和发展,这导致信息量不断增长。面对持续膨胀的海量信息,如何提高检索的效率以提升用户的检索体验,这给信息检索带来了巨大的挑战。本文首先介绍了文档重排的概念及其研究现状,并通过分析基于统计的和基于语义的两类文档重排方法,发现这两类文档重排方法均忽视了自然语言本身具有的不确定性特点,然后结合云模型理论,从发现不确定性知识的角度研究信息检索中的文档重排方法。本文通过发现查询词层次的不确定性知识,提出了一种基于云模型的文档重排方法。该方法通过获取查询关键词在文档中的分布情况,利用云模型实施定性定量转换,获取文档表征查询的不确定性,以此进行文档重排。论文进一步通过发现查询语句层次的不确定性知识,提出了一种基于概念跃升的文档重排方法。该方法是在获取查询词层次文档表征查询的不确定性的基础上,利用云综合算法对查询词进行概念跃升,得到查询语句层次文档表征查询的不确定性,综合这两个层次的不确定性知识进行文档重排。本文成功设计并实现了基于云模型理论的信息检索系统。该系统是在获取了首次检索结果的基础上,利用云模型理论的三个数字特征,分别从查询词以及查询语句两个层次获得用文档表征查询的不确定度,基于此不确定度由低到高完成文档重排,将重排后的结果返回给用户。本文采用NTCIR-5信息检索测试集,根据TREC评测标准对所提出的方法进行对比实验。实验结果表明,所提出的方法在relax和rigid这两种评测标准下均有所提高,尤其在rigid评测标准下有更好的效果。
其他文献
随着社会经济、计算机信息技术和存储技术的不断发展,在日常生活和科学研究领域中,逐渐积累了大量的有重要参考价值的数据。如何从这些宝贵数据中挖掘出我们需要的知识已经成
随着近几年通信业的迅猛发展,移动通信网业务己成为通信行业的支柱产业之一,如何保障移动通信网业务的正常运行,已成为各大通信运营商重点关注的问题。电信员工使用移动通信
随着计算机应用在全球的发展以及中国等亚洲发展中国家经济持续快速增长,软件产业在中国等新兴市场有着巨大的市场和广阔的发展前景,将已有软件做国际化和本地化的需要也日益
随着计算机技术的发展,各行业都开始把计算机技术应用到本行业来,虚拟现实技术和计算机仿真的应用越来越广泛,计算机动画模拟也得到了很快的发展。计算机游戏、影视、动漫等
运动目标的检测和跟踪作为计算机视觉的一个重要组成部分吸引了大量国内外学者的研究,而且它也是实现智能交通系统的一个技术基石。面对诸如基于模型和区域的传统跟踪方法所
当今社会正在步入网络时代,Internet已经成为重要的信息传输载体。虽然目前,大部分网络终端仍以PC的形式出现,但是作为计算机应用发展趋势——嵌入式系统正在异军突起,并且已经拥
数据流是一个有时间顺序的,无限的数据元素组成的连续序列并且数据元素的底层分布可能随着时间发生变化。它具有连续、无限、高速到来和时变数据分布的特点。因此数据流环境
邻域粒子搜索被广泛应用于SPH方法、离散单元法等无网格方法的求解计算中。邻域粒子搜索是一种粒子配对方法,从问题域粒子中查找当前粒子的邻域粒子,为当前粒子运动提供计算
RFID技术作为一项先进的自动识别和数据采集技术,被公认为是21世纪十大重要技术之一,在生产制造、销售流通、公共安全等领域有着广阔的应用前景,并得到了很多国际大公司的支
锂铅实验回路是核聚变研究的重要试验平台之一,合肥物质研究院建立了具有中国自主产权和不同功能参数的Dragon系列锂铅实验回路,并开展了相关实验研究工作,为我国相关研究奠定了