基于互信息的语义查询扩展技术研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:game00vergoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索系统的运用过程中,由于一般用户无法提出完整规范信息的查询式,很容易导致查询漂移的产生。为了解决这个问题,查询扩展技术应运而生,但是发展到今天该技术还没有真正成熟。其根本原因是以往的扩展方法只是机械的通过共现或者仅仅利用某种资源对查询中的关键词进行孤立的扩展,没有从根本上解决问题。只有从语义的层面上对原查询进行分析,根据分析结果来进行查询扩展才能从根本上解决根本问题。本课题对现有的查询扩展方法进行了深入研究和分析,结合前人研究成果本文提出了一种基于互信息的语义查询扩展算法。此方法结合大规模通用语料库的统计信息和根据语言学知识基于语义的扩展词构造两种扩展方式,从来源于生活的文档和人工生成的语义词典两种资源选取扩展词,结合扩展词与原查询词在语义词典的相似度以及在文档集中的的互信息给扩展词赋综合权值,根据权值的大小设定阈值作为扩展词的选择依据,最终得到新的查询式。由于一般用户只对搜索引擎中的前若干条返回信息感兴趣,所以提高返回文档的前若干条的查准率有一定的实用价值,于是在本课题中加入了基于文档重构的返回文档重排序模块。最后,实现了本课题的算法,并做了相应的实验。由对比实验结果可知,利用本课题提出的算法检索性能MAP(Mean Average Precision)和Prec@20都有明显提高。本文算法在多数情况下,提高了检索质量,本文提出的算法有一定的实用价值。
其他文献
世界移动通信技术的飞速发展,将在经济发展和社会进步中发挥更重要的作用,也将会给人们的生活带来越来越大的影响力。随着第三代移动通信(3rd Generation Mobile Communicati
随着互联网技术的广泛应用,电信、交通、金融等各传统行及新兴的互联网行业出现了数据的爆炸性增长,大规模数据处理技术首先在互联网行业诞生并迅速应用于各种大规模数据处理场
近年来,随着智能手机的风靡和网络带宽的不断提高,互联网数据业务得到高速发展,用户数据业务访问量和网络内的数据流量均呈爆炸式增长,导致骨干网的带宽压力逐年增大。虽然网络带
植物生长建模与可视化技术一直是近年来计算机与生物、农业学科交叉领域的热点研究领域。该技术大大提升了生物和农业科学的研究深度和生产效率,并可进一步应用于游戏、动漫、
IT信息技术产业飞速发展,IT资产系统日益庞大,伴随的是日益繁杂的信息交互与业务处理。各大运营商除了需要急切提升IT应用系统的技术更新需求外,更需要一套高质量高效率的对应用
随着互联网业务的快速发展,目前越来越多的数据被上传到互联网上,而对与这些数据的处理传统数据库遇到大量频繁的请求时可能会出现系统瓶颈和处理能力下降的情况,因此数据库的可
时空多变量数据是一种常见且在各行各业都极为重要的数据,有着广泛的应用。可视分析作为一种近年来蓬勃兴起的分析手段受到了越来越多的关注,时空多变量数据分析也成为可视分析
小麦网腥(TCT)、印度腥(TIM)和矮腥黑穗病(TCK)是小麦三类重要的真菌病害。小麦病害是其产量和品质的重要制约因素,会导致小麦大面积减产甚至绝收,更对食用者的安全造成影响。
中国移动多媒体广播(CMMB, China Mobile Multimedia Broadcasting),作为具有自主知识产权的移动多媒体广播的标准,具有覆盖面积广、传输速度快的特点,它在市场上已经有了广
视频监控以其直观、非接触、易被监控对象接受等优点,广泛应用于安全防范、生产监控、教育、政府、银行、商店、娱乐、医疗、运动等领域。近年来,随着计算机技术、网络技术和图