基于潜在语义分析的信息检索研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：yangpingliu

【摘要】

：

如何准确、快速地从互联网的海量数据中获取有用信息，是信息检索所要研究的问题。当前已有的信息检索工具主要是基于关键词的全文匹配，在查全率和查准率上无法满足用户的检索需

【作者】

：

张宏艳

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2009年期

【关键词】

：

信息检索语义分析权重计算奇异值分解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何准确、快速地从互联网的海量数据中获取有用信息，是信息检索所要研究的问题。当前已有的信息检索工具主要是基于关键词的全文匹配，在查全率和查准率上无法满足用户的检索需求。　　潜在语义分析法，它不同于传统的基于关键词匹配的检索方法，是将计算机科学、数学、情报学的思想、技术和手段融合起来，对文本的潜在含义进行挖掘，从而得到优化的检索结果。与传统的基于关键词匹配的信息检索模型相比，基于潜在语义分析的信息检索具有可计算性强、需要参与的人少，体现语义性等优点。　　本文主要研究基于潜在语义分析的信息检索的理论和实现方法。首先，对潜在语义分析技术的产生背景、发展状况、数学原理、关键技术作了深入的研究。其次，对潜在语义分析的权重计算方法进行了改进。具体为：考虑词汇在同一文章中因为所处位置不同而对文章产生不同的贡献，在传统的权重计算方法上引入位置参数，使权重计算方法更贴近实际，经过实验验证，改进后的权重计算方法进一步提高了检索的准确率。第三，设计并编程实现了基于潜在语义分析的信息检索实例。实例主要包括：从复旦大学分类语料库选取原始数据；使用中科院计算所研究的中文分词系统对原始数据进行中文分词；使用Matlab工具进行相关数学计算，包括权重计算、奇异值分解、相似度计算以及实验结果分析。　　本文的创新点或特点有：　　 1)把潜在语义分析技术与信息检索技术相结合，使信息检索结具有语义性，这是传统的基于关键词的信息检索无法达到的。　　 2)对潜在语义分析的权重计算方法进行了改进，提出了基于位置参数的权重计算方法。　　 3)设计并实现了基于潜在语义分析的信息检索实例，通过实验方法验证基于潜在语义分析的信息检索的可行性与优越性。

其他文献

时态数据索引TDindex研究与应用

随着互联网的发展，新型数据与时间的联系越发紧密，而传统数据库难以有效管理数据的时态信息，并且尚无完整的时态数据库以进行时态数据管理，关于时态数据的管理课题的研究变得更为

学位

时态数据索引数据结构互联网移动对象

基于PAES混合演化算法的研究及应用

多目标优化问题一直是科学和工程领域的一个难题和热点问题，在演化算法应用到这一领域以前，已经产生了许多传统的方法，传统的方法存在探索未知空间的能力不强，容易陷入局部极值点

学位

多目标优化PAES算法深空探测地火转移轨道卫星星座优化设计

基于代理服务的工作流互操作性研究

随着工作流产品应用的逐渐普及、用户需求的不断提高和社会分工的细化，工作流管理系统的应用背景呈现出分布式、多任务协作等特点，给工作流任务的实施带来了新的挑战，如何利用工

学位

工作流互操作工作流管理系统Web服务

基于IPv6接入网的IPv4地址资源配置机制研究

IPv4地址耗竭致使全球互联网正在加紧向IPv6的过渡。但是由于IPv4应用广泛,互联网对IPv4依赖强,因而向IPv6过渡无法在短期内完成。为了在IPv4/IPv6过渡时期推动IPv6的部署发

学位

DHCP IPv6过渡DHCP4o6 IPv4共享

虚拟数据库查询处理相关技术的研究与实现

随着个人机和计算机网络的快速发展，各种计算资源像燎原烈火一般，燃遍信息世界的每一个角落。各种应用的核心——数据，以不同的形式存储在不同的系统中，呈分布、异构和自治状态。

学位

虚拟数据库虚拟数据库元数据管理元数据管理信息集成理论信息集成理论语义查询语义查询

基于基线的企业信息网的异常流量检测

随着网络日益成为经济生活的基础设施，网络的规模和复杂度日益增加，为了知晓网络的运行使用情况，及时发现网络中可能存在的异常流量，需要一种行之有效的流量检测方法。这种方法应

学位

异常流量异常流量企业信息网企业信息网网络规模网络规模阀值检测阀值检测

基于静态分析的C语言缓冲区溢出漏洞检测研究

C语言是一种广泛流行的高级计算机语言，即使现在已经有像java这样可以检查数组越界的语言，C语言还被使用于很多的系统开发中。一方面，还存在很多用C语言实现的遗留系统；另一方面，

学位

缓冲区溢出漏洞静态分析抽象解释计算机软件软件漏洞检测数据流分析不动点理论

带误差控制的细分曲面拟合系统

曲面拟合是逆向工程和其它许多应用的关键技术。细分曲面因其表示简单、C1连续和可由一个控制网格表示任意拓扑曲面等优点而广泛应用于计算机动画与三维游戏等领域的复杂物体

学位

误差控制误差控制细分曲面细分曲面曲面拟合曲面拟合逆向工程逆向工程

基于数学形态学的模糊异常点检测算法

在高度信息化的今天，产生的海量数据和新型数据集都对传统的数据分析技术形成挑战。数据挖掘不断突破这些挑战带来的种种局限性，为当今信息技术的发展奠定了基础。作为数据挖掘

学位

数据挖掘异常点检测数学形态学模糊分析异常点因子

基于模糊PID控制的汽车尾气排放检测系统的应用研究

机动车尾气污染是大气污染的一个重要来源，如何对机动车排放进行有效监控和检测是各级环保部门所面临的问题之一。本论文采用理论与实验结合的方法，重点研究了机动车的排气污染

学位

机动车尾气机动车尾气尾气检测尾气检测模糊控制模糊控制工况控制工况控制

基于潜在语义分析的信息检索研究

与本文相关的学术论文