论文部分内容阅读
信息技术的飞速发展使信息资源的过度膨胀和用户查询的多样化需求逐渐成为一种不可缓解的矛盾,各种信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引了大量的研究人员对其进行研究。其中TF-IDF权重度量方法和文本排序算法是向量空间模型中最集中研究的方向,但TF-IDF方法在应用过程中忽略了文本长度因素,文本排序算法也没有考虑文本间的相关性,从而影响了文本检索的准确率。 本文从文本长度和文本重要性度量两个角度出发,分别对TF-IDF方法和文本排序方式进行研究改进,提出了一种基于改进向量空间模型的文本检索算法。该算法采用基于文本长度的TF-IDF方法计算特征项权重,并结合文本重要性对检索结果进行排序,大大提高了文本检索算法的查准率。 本文主要工作如下: ①分析了信息检索和文本检索的出现背景及文本检索技术近几年的研究现状,简要介绍了工具包Lucene的系统结构、索引和检索机制、分词机制等相关技术,重点介绍了向量空间模型及TF-IDF词项权重度量方法。 ②基于文本长度对文本检索效果影响的研究,分别引入相对词项频率和长度标准化因子,对传统的TF权重方法加以改进后,结合已有的IDF方法,提出了新的权重计算方法——NTF-IDF(New TF and IDF)算法。 ③为有效改善检索结果的排序问题,将PageRank算法中的链接分析技术的思想引入至文本排序中,提出用于计算文本重要性的TextRank算法,然后将TextRank算法应用至检索结果的排序中。 ④采用Reuters-21578数据集的ApteMod版本,通过实验对提出的NTF-IDF权重计算方法和TextRank算法进行评估,验证其合理性和有效性。 实验结果表明,相对传统的TF-IDF方法和其它文献提出的改进算法,NTF-IDF方法在文本检索准确率上有一定程度的提高;同时TextRank算法可有效改善文本检索结果列表的排序。