论文部分内容阅读
随着Internet在全世界的迅猛发展,各种信息资源越来越丰富。信息检索作为互联网的核心技术具有极大的商业价值;信息检索还直接影响到提供给用户什么样的信息;同时信息检索也是情报处理的重要环节。从这个意义来看,研究并掌握信息检索的核心技术,无疑具有十分重要的经济意义、社会意义和军事意义。 本文对中文信息检索中的索引策略进行了研究。由于中文文本没有用于切分单词的空格,这使得索引单元的研究成为中文信息检索的特有问题。本文比较的索引策略包括基于字的索引、基于词的索引和基于字的n元文法的索引。本文包括以下几个方面的内容: 1、汉语自动分词。汉语分词是以词为索引单元的信息检索不可缺少的一步。本文分析了汉语自动分词中的歧义现象,然后介绍了用于处理自然语言的歧义问题的语言模型,最后介绍了应用于语言模型的平滑算法。综合使用这些技术,使汉语自动分词获得了很高的准确率,满足了信息检索的需要。 2、信息检索系统实现问题,即信息检索系统的数据组织方式。对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提。数据组织方式影响系统的检索速度和存储空间。这部分首先介绍了索引的组织方法,包括正向索引和倒排索引;然后在关键字的组织查找方式中介绍了两种常用的查找方法B-树和哈希表;随后是信息检索中的数据压缩方法;最后是信息检索系统数据组织的具体实现。本文根据实验数据的特点,恰当地选择了数据组织方法,满足了实验的要求。 3、中文信息检索中的索引策略。本文应用概率模型在TREC公开数据(TREC Mandarin)上比较了不同索引策略对中文信息检索的影响。本文首先介绍了信息检索中的概率模型,随后给出了待比较的检索策略:基于字索引、基于词的索引和字的二元文法索引。实验结果表明,以信息检索常用的平均精确率和R-精确率为评价指标,基于字的二元文法索引性能最优。以召回率与精确率对应表和文件数与精确率对应表为评价指标,基于字的二元文法性能最优或与最好的结果可比。