基于潜在语义分析的信息检索研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:yangpingliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何准确、快速地从互联网的海量数据中获取有用信息,是信息检索所要研究的问题。当前已有的信息检索工具主要是基于关键词的全文匹配,在查全率和查准率上无法满足用户的检索需求。   潜在语义分析法,它不同于传统的基于关键词匹配的检索方法,是将计算机科学、数学、情报学的思想、技术和手段融合起来,对文本的潜在含义进行挖掘,从而得到优化的检索结果。与传统的基于关键词匹配的信息检索模型相比,基于潜在语义分析的信息检索具有可计算性强、需要参与的人少,体现语义性等优点。   本文主要研究基于潜在语义分析的信息检索的理论和实现方法。首先,对潜在语义分析技术的产生背景、发展状况、数学原理、关键技术作了深入的研究。其次,对潜在语义分析的权重计算方法进行了改进。具体为:考虑词汇在同一文章中因为所处位置不同而对文章产生不同的贡献,在传统的权重计算方法上引入位置参数,使权重计算方法更贴近实际,经过实验验证,改进后的权重计算方法进一步提高了检索的准确率。第三,设计并编程实现了基于潜在语义分析的信息检索实例。实例主要包括:从复旦大学分类语料库选取原始数据;使用中科院计算所研究的中文分词系统对原始数据进行中文分词;使用Matlab工具进行相关数学计算,包括权重计算、奇异值分解、相似度计算以及实验结果分析。   本文的创新点或特点有:   1)把潜在语义分析技术与信息检索技术相结合,使信息检索结具有语义性,这是传统的基于关键词的信息检索无法达到的。   2)对潜在语义分析的权重计算方法进行了改进,提出了基于位置参数的权重计算方法。   3)设计并实现了基于潜在语义分析的信息检索实例,通过实验方法验证基于潜在语义分析的信息检索的可行性与优越性。
其他文献
随着互联网的发展,新型数据与时间的联系越发紧密,而传统数据库难以有效管理数据的时态信息,并且尚无完整的时态数据库以进行时态数据管理,关于时态数据的管理课题的研究变得更为
多目标优化问题一直是科学和工程领域的一个难题和热点问题,在演化算法应用到这一领域以前,已经产生了许多传统的方法,传统的方法存在探索未知空间的能力不强,容易陷入局部极值点
随着工作流产品应用的逐渐普及、用户需求的不断提高和社会分工的细化,工作流管理系统的应用背景呈现出分布式、多任务协作等特点,给工作流任务的实施带来了新的挑战,如何利用工
IPv4地址耗竭致使全球互联网正在加紧向IPv6的过渡。但是由于IPv4应用广泛,互联网对IPv4依赖强,因而向IPv6过渡无法在短期内完成。为了在IPv4/IPv6过渡时期推动IPv6的部署发
随着个人机和计算机网络的快速发展,各种计算资源像燎原烈火一般,燃遍信息世界的每一个角落。各种应用的核心——数据,以不同的形式存储在不同的系统中,呈分布、异构和自治状态。
随着网络日益成为经济生活的基础设施,网络的规模和复杂度日益增加,为了知晓网络的运行使用情况,及时发现网络中可能存在的异常流量,需要一种行之有效的流量检测方法。这种方法应
C语言是一种广泛流行的高级计算机语言,即使现在已经有像java这样可以检查数组越界的语言,C语言还被使用于很多的系统开发中。一方面,还存在很多用C语言实现的遗留系统;另一方面,
曲面拟合是逆向工程和其它许多应用的关键技术。细分曲面因其表示简单、C1连续和可由一个控制网格表示任意拓扑曲面等优点而广泛应用于计算机动画与三维游戏等领域的复杂物体
在高度信息化的今天,产生的海量数据和新型数据集都对传统的数据分析技术形成挑战。数据挖掘不断突破这些挑战带来的种种局限性,为当今信息技术的发展奠定了基础。作为数据挖掘
机动车尾气污染是大气污染的一个重要来源,如何对机动车排放进行有效监控和检测是各级环保部门所面临的问题之一。本论文采用理论与实验结合的方法,重点研究了机动车的排气污染