论文部分内容阅读
随着时代的发展,互联网上的信息正在以指数级的速度增长。人们在享受互联网发展带来的各种方便的同时,也出现了如何在如此海量的内容中准确、快速的定位到自己所需要、有价值的信息的问题。搜索引擎技术应运而生,它为人们快速检索信息提供了极大的便利。
本文首先对搜索引擎的历史、分类、发展现状及其趋势做了概要介绍;然后以搜索引擎的体系结构、工作原理开始我们的研究工作,此外还对分词技术、倒排索引、检索模型等进行了简单的介绍。在此基础上本文结合开源的搜索引擎系统Nutch和开发工具包Lucene设计了一个中文的搜索引擎系统。
该搜索引擎主要在中文分词和排序算法上作了改进。中文分词方面结合了隐马尔可夫模型和Viterbi算法,分词过程中结合基于统计和基于规则的方法,采用了多遍词性标注的方式来提高分词的准确性,并取得了不错的效果。排序算法的改进不再单以TF-IDF算法为主,而是考虑到网页中标签对内容的影响、网页之间的链接结构和用户使用的反馈信息通过综合来对结果排序作评分的。