潜在语义分析在文本检索中的应用研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:abc870617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展,网络上文本信息爆炸式增长给信息检索技术带来了巨大挑战,人们越来越难以快速准确地从网上检索到自己真正想要的相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而语言中的多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。   潜在语义分析(LSA-Latent Semantic Analysis)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSA通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构。   本文主要研究检索系统的理论和实现方法,根据潜在语义分析理论,开发了一个检索系统。首先对潜在语义分析的一些算法进行了改进,具体为:(1)对传统的权重计算方法进行了改进,进一步提高了检索的准确率;(2)基于用户输入信息的特殊性,考虑了关键字的因素;(3)通过利用现代资产组合理论原理对搜索排序中不确定性因素进行分析,模型化不确定因素,优化了整体检索排序算法,提高整体排序效果。然后对检索系统进行了详细的功能分析,包括具体模块的设计、实现方法和关键技术。该系统利用自然语言的处理方法,在一定程度上实现了基于语义的检索功能,比传统的基于关键字匹配的检索具有更好的效果。  
其他文献
随着医院信息系统的普及,医院数据库规模不断扩大,数据复杂程度日益增加。如何从现行医院信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿
学位
自1972年Parke研究人脸动画开始以来,国内外研究工作者使用各种方法合成人脸动画,诸如基于参数控制方法,基于数据驱动方法等等。人脸动画的合成具有广泛的实用价值,用于游戏、娱
在遥感数据的获取、处理、分析、数据转换等各种操作中,都会引入不同类型和不同程度的不确定性,并在随后的各种处理过程中传播,最终的不确定性则是各种不确定性不断积累的结果。随着遥感分类数据被广泛地作为GIS中研究土地覆盖和利用情况以及GIS中各种模型的重要数据源,研究遥感影像分类过程中的不确定性具有十分重要的意义。粗糙集理论是一种处理不确定性的数学工具,作为一种新兴的归纳学习方法,以其“不需对数据的任何
个性化、实时化、高效化构建三维人体模型已经成为虚拟人体建模的发展趋势,有着重要的研究价值和广泛的应用前景。三维人体虚拟人体的个性化建模、降低三维人体建模的构造成本
消息中间件(Message Oriented Middleware,MOM)是目前中间件技术的发展热点。它利用高效可靠的消息传递机制来进行平台无关的数据交流,并基于数据通信来实现分布式系统的集成。
互联网飞速发展,已经渗透到人们日常生活的方方面面,互联网所容纳的数据量不断增长,人们面对海量数据的时候对数据的检索提出了更高的要求,期待可以用更少的时间找到自己感兴趣的
自然语言的语义分析是实现自然语言理解的必要手段,其中面向信息处理用的词义分析一直是自然语言处理的焦点和难点。传统语言学的词义研究主要关注词义的发展和演变。汉语词典
随着互联网信息的指数级增长,面向特定主题的搜索引擎(垂直搜索)日益受到人们的关注。面向特定主题的搜索引擎通过针对性的收集与主题相关的数据内容,并进行分析,最后展现给用户
随着今天Internet的高速发展,网上资源的数量爆炸式增长,越来越多的事务依靠网络这个平台来开展和完成,信息检索能力也日益受到人们的重视。信息检索系统作为一种高效便捷的信息
中医学是具有中国文化特色的传统医学体系,对中华民族的繁衍昌盛及在人类的医疗、保健实践中做出了巨大的贡献。如何在现有中医学理论和实践的基础上将名老中医的学术思想和临