基于LSI的信息检索关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wgrlxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索本质上是语义检索,虽然现有的搜索引擎数目众多,但其采用的信息检索技术大多是基于独立词索引,由于同义词和多义词的大量存在,因此检索效果并不理想,信息检索的查全率和精确度都不高,很难今用户满意。针对以上这些问题,近年来,一种全新的,基于文本语义分析的信息检索技术—潜在语义索引(LatentSemanticIndex-LSI)技术应运而生,并且得到了迅速地发展。 潜在语义索引是一种基于向量空间模型的信息检索技术,它通过分析大量文本描述中词语的使用模式,建立文档的潜在语义向量空间描述模型,与基于关键词向量空间模型相比,它通过奇异值分解(SVD)等处理,消除了自然语言表述中的同义词和多义词的影响,提高了信息检索的精度。理论分析和实验结果证实了潜在语义索引能够取得更好的检索效果。基于LSI的信息检索处理中,语义空间的建立和更新是非常耗时和难以把握的关键处理技术,影响了LSI的推广应用。本文在系统分析了潜在语义索引原理的基础上,针对这两个问题进行广泛地讨论和研究。具体来说,本文主要工作包括::1.在剖析了当前的主流信息检索技术—全文检索技术的特点以及不足的基础上,阐述了基于潜在语义索引的信息检索技术。重点论述了潜在语义索引的理论基础,基本原理,主要特点及应用领域。 2.LSI通过降维去“噪音”,消减词和文档之间语义模糊度。本文讨论分析了现有的几种LSI降维的方法并提出了一种根据矩阵向量相似度确定k值的方法,同传统方法相比可以更加快速有效地确定降维后向量空间的维数(k值)。 3.讨论并分析了SVD几种更新的方法,包括重新计算SVD(Recomputing),直接添加新向量(Folding-in)和一种近似的SVD更新方法(SVD-Updating),在此基础上提出了一种SVD更新策略,兼顾了更新的时间效率和更新后向量空间语义表示的准确度。 4.实现了一个基于LSI的信息检索系统原型,在系统中实现了本文提出的k值选取方法和SVD更新策略,并在信息检索实验中取得了良好的效果。 本文旨在对语义检索技术—潜在语义索引的理论和实现进行了深入的分析和探讨,其中的分析和论述对于实际系统的开发具有一定的指导作用,另外,有关语义向量空间的降维和更新的思想和技术也可以应用到其它智能信息处理系统中,以提高处理效果和效率。
其他文献
随着机器人相关技术以及交叉学科研究的不断加深,机器人技术有了很大的提升,与此同时,机器人应用领域也得到了不断的扩展,未来也将在物联网中发挥重要的作用。然而机器人方向
Web应用服务器为开发、部署、运行、集成、维护和管理中间层应用服务提供一个通用运行环境。而为了提高应用服务器EJB访问的效率,节省系统资源和提升整个系统的可伸缩性,需要对
该文详细研究了服务器端组件体系结构EJB架构的特性,和越来越受关注的可用于提高软件质量的设计模式,以广东省政协办公厅管理信息系统项目开发为研究背景,研究探讨了如何在基
该文系统的介绍了数据流挖掘的实现算法DTCTC-基于聚类和决策树的数据流挖掘方法.DTCTC结合数据流的聚类和决策树算法,首先对数据流进行聚类处理,控制数据输出的速度,并得到
该文通过构造介于集成视图和底层数据源模式之间的一种形式——源模式的XML视图的方法,来实现查询转换和结果组装.首先将完整性约束引入到XML数据中,给出了关键元素和元素函
该论文是"国土资源大调查"项目"矿产资源GIS评价系统"(简称MRAS)的组成部分.该论文在讨论重磁数据处理的基本原理、工作方法和科学计算可视化的数据类型、处理流程的基础上,
该文通过研究数据挖掘以及文本挖掘技术的思想,建立了中文文本挖掘模型,提出了基于文本信息的数据挖掘体系结构.利用网络底层信息获取技术进行BBS和Email数据包的截获,通过对
该文提出演化密码的概念和用演化计算设计密码的方法.演化密码在理论和应用中都是重要意义.该文对DES的核心部件S-Boxes进行了实际演化,得到一种用演化计算设计S-Boxes的方法
该文研制开发了一个较为通用的网络计划软件系统,把网络计划技术用于制造业生产,通过从产品工艺设计和零部件设计中提取信息,自动生成产品网络计划,然后生成产品的派生计划,
该文重点对主题(敦煌学)数字图书馆的体系结构展开了研究.在分析和研究其它体系结构的基础上,依据敦煌学的主题领域需求,设计了集成和采集两种方式相结合的松耦合的四层体系