论文部分内容阅读
互联网技术的飞速发展,网络上文本信息爆炸式增长给信息检索技术带来了巨大挑战,人们越来越难以快速准确地从网上检索到自己真正想要的相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而语言中的多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。
潜在语义分析(LSA-Latent Semantic Analysis)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSA通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构。
本文主要研究检索系统的理论和实现方法,根据潜在语义分析理论,开发了一个检索系统。首先对潜在语义分析的一些算法进行了改进,具体为:(1)对传统的权重计算方法进行了改进,进一步提高了检索的准确率;(2)基于用户输入信息的特殊性,考虑了关键字的因素;(3)通过利用现代资产组合理论原理对搜索排序中不确定性因素进行分析,模型化不确定因素,优化了整体检索排序算法,提高整体排序效果。然后对检索系统进行了详细的功能分析,包括具体模块的设计、实现方法和关键技术。该系统利用自然语言的处理方法,在一定程度上实现了基于语义的检索功能,比传统的基于关键字匹配的检索具有更好的效果。