论文部分内容阅读
搜索引擎做为互联网的核心技术之一,它对互联网发展的贡献是巨大的。搜索引擎的目的就是为了给用户提供高效的检索结果,也就是让用户更快、更全、更稳、更准的从复杂的万维网中找到自己所需要的信息。互联网的变化日新月异,为了满足用户日益变化的需求,搜索引擎所使用的各种技术也不断的在发展、进步。本文深入的研究了文本搜索引擎的原理和体系结构,以Google模式中的PageRank算法和VSM模型为重点,改进了VSM模型中使用广泛的词权重统计方法——term frequency/inverse document frequency (TF/IDF方法),提出了将PageRank值应用到文本分类中的新方法——基于PageRank值的文本相似度改进模型。本文的主要工作包括:首先,考虑到网络的特殊环境,对词频的统计方法(TF方法)进行改进,使改进后的词频能够更好的为检索本身服务。其次,对逆文本频率的计算(IDF方法)进行改进,在计算逆文本频率的时候考虑不同文本类别的影响,使最终提取的信息对文本更有价值。然后,结合改进后的词频统计方法和逆文本频率计算方法对文本相似度模型的流程进行改进。最后,对改进后的相似度模型进行验证,经过对大量的实验数据进行分析发现改进后的模型对提高搜索引擎的检索效果具有成效。在改进后的模型中先以PageRank值的大小为准则进行初步分类,然后考虑不同类别间的信息价值采用改进后的TF/IDF方法进行特征提取以计算相似度,最后进行相似度排序。为了使改进后的方法能够方便的应用到实际中,本文提出了构造中间件无缝衔接原系统的方案,并设计了相关的中间件——用户接口。在实验阶段,先对人工选择的检索库进行初检索并统计检索结果,然后应用改进后的方法对检索结果进行二次检索,最后对两次检索结果进行比较和分析。在实验数据的统计分析中,重点分析了两次检索结果的相关性、优异率、新词准确率等项目,实验结果表明:改进后的模型可以提高检索的整体效果,使用户更轻松的找到自己所需要的内容。