论文部分内容阅读
随着信息技术的飞速发展,因特网上的信息呈爆炸式增长。如何快速、准确地查找有用的信息,成为近年来信息技术的研究热点。目前基于“概念”的信息检索技术被人们关注,该方法以查询条件和文档之间的“概念”匹配作为检索命中的依据,克服了传统字符串匹配检索技术的不足,可以获得较好的检索效果。
本论文采用的隐含语义检索(LSI,LatentSemanticIndexing)是一种基于“概念”的智能化检索方法,该方法采用向量空间模型表示文档,通过对文档——词条矩阵截断奇异值分解(SVD)获得文档语义的“概念”空间。本论文详细讨论了隐含语义检索的原理和建立隐含语义检索系统的过程,为国家科学数字图书馆化学学科信息门户提供了专业化、实用化、可检索中英文双语的隐含语义检索系统。
为了实现隐含语义的专业化、中文化和实用性,本论文进行了以下研究工作:(1)建立了包含20万词条的化学化工中英文专业术语库。隐含语义检索系统基于专业术语库对文档分词,提取专业词和专业短语。在权重算法原理的指导下,通过适当增加专业术语的权重,提高了系统的查准率,实现了隐含语义检索系统的专业化。
(2)利用计算所开发的汉语词法分析系统和基于专业术语库的最大长度匹配算法对中文文档进行分词,并通过与英文类似的词条处理实现了中文隐含语义检索系统。
(3)本论文实现了Linux和Windows下两套检索系统,使用不同的编译器优化了矩阵奇异值分解程序,提高了检索系统的性能。
(4)针对开发的隐含语义检索系统,分析了不同分词方法、权重算法和奇异值分解参数对系统查准率的影响,进一步提高了隐含语义检索系统的查准率。
(5)为了方便专业术语库的维护和完善,开发了一套科技术语管理系统,实现对术语库的管理。另外还设计并实现了一个基于专业术语表的中英文分词接口,该接口可用来处理文本分类和网页爬行中的文档分词,并可对分词结果进行简单的统计,为专业搜索引擎的开发打下了基础。