论文部分内容阅读
在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高,针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种文献的检索,这样性能就更加低效,与其说使检索系统适应各种文献类型不如退而求其次,针对不同的文献类型设计不同的检索系统,本文对使用最多的科技文献的结构进行了分析,针对科技文献的特点,对中文科技文献信息检索系统的各个方面进行了改进。在讨论科技文献的自动分词之前首先分析了用来标引文献的关键词,根据文献标引中使用的关键词的特点,改进了分词词典和停用词表,使其更加适用于中文科技文献的标引需要。针对文献的五个部分使用了不同的分词算法,对篇名、摘要和参考文献使用双向最大分词算法,可以从中识别出歧义词。对于正文由于词语的重复率比较高,不对正文出现的少量歧义进行处理,也不会对词频产生大的影响。正文就只采用正向最大分词方法。信息检索系统选用向量空间模型作为检索模型。在基于向量空间的信息检索系统中加入了位置空间,位置空间中篇名、摘要、关键词、正文和参考文献分别作为一个位置来处理,从中提取的关键词单独计算权值,构成位置向量,然后用位置向量来构造文献向量。文献向量构成整个文献空间矩阵。为了减小文献矩阵的摄动和长文献对词频的影响,本文把文献矩阵规范成了概率阵,并用矩阵的条件数证明了概率阵的摄动明显减小。由于信息检索系统的评价方法一直用查全率和查准率,这两种方法都是二值的评价方法,本文提出了一种偏移距离的方法来评价检索系统。