论文部分内容阅读
如何准确、快速地从互联网的海量数据中获取有用信息,是信息检索所要研究的问题。当前已有的信息检索工具主要是基于关键词的全文匹配,在查全率和查准率上无法满足用户的检索需求。
潜在语义分析法,它不同于传统的基于关键词匹配的检索方法,是将计算机科学、数学、情报学的思想、技术和手段融合起来,对文本的潜在含义进行挖掘,从而得到优化的检索结果。与传统的基于关键词匹配的信息检索模型相比,基于潜在语义分析的信息检索具有可计算性强、需要参与的人少,体现语义性等优点。
本文主要研究基于潜在语义分析的信息检索的理论和实现方法。首先,对潜在语义分析技术的产生背景、发展状况、数学原理、关键技术作了深入的研究。其次,对潜在语义分析的权重计算方法进行了改进。具体为:考虑词汇在同一文章中因为所处位置不同而对文章产生不同的贡献,在传统的权重计算方法上引入位置参数,使权重计算方法更贴近实际,经过实验验证,改进后的权重计算方法进一步提高了检索的准确率。第三,设计并编程实现了基于潜在语义分析的信息检索实例。实例主要包括:从复旦大学分类语料库选取原始数据;使用中科院计算所研究的中文分词系统对原始数据进行中文分词;使用Matlab工具进行相关数学计算,包括权重计算、奇异值分解、相似度计算以及实验结果分析。
本文的创新点或特点有:
1)把潜在语义分析技术与信息检索技术相结合,使信息检索结具有语义性,这是传统的基于关键词的信息检索无法达到的。
2)对潜在语义分析的权重计算方法进行了改进,提出了基于位置参数的权重计算方法。
3)设计并实现了基于潜在语义分析的信息检索实例,通过实验方法验证基于潜在语义分析的信息检索的可行性与优越性。