论文部分内容阅读
随着web技术的飞速发展,Internet上的资源和信息急速膨胀,如何从海量信息中筛选出所需要的信息,并将信息按照其相关性排序,成为急需解决的问题。于是,为满足信息检索需求的搜索引擎技术便应运而生了。评价一个搜索引擎的两个指标是查全率和查准率。搜索引擎技术的探索才刚刚开始,许多问题亟待解决。随着web上的信息不断增长,隐藏信息和动态网页已成为web的一个重要组成部分,对这一类信息的挖掘必须从网络爬行器的研究入手,从而提高搜索引擎的查全率(Recall)。搜索引擎面临的另一个挑战是查准率(Precision),这个问题的解决策略主要从分词系统的结构和分词算法改进入手,进而提高分词的精度。本文从构成一个搜索引擎的基本架构入手,分析了各个部分的结构及原理,设计了一个可扩展的搜索引擎。首先本文研究了分词的基本步骤,对分词的基本算法包括MM算法、RMM算法、最佳匹配算法和N-最短路径切分算法作了详细分析,论证了统计方法在词串粗分和深切分中的作用。在此基础上,本文提出了在深切分层引入图切分方法的观点;提出了在粗切分前进行浅层的未登录词识别,对传统的基本分词架构作出了改进;提出了新的分词算法,即3-连通路径算法。其次,本文对WebCrawler作了深入分析,研究了组成WebCrawler的三个模块:协议模块、处理模块和策略模块。随后研究了文档文摘算法和网页评级PageRank策略,最后设计了一个可行的网络爬行子系统。再次,本文研究了组成搜索引擎的基本模块——文本解析子系统,对文本分析模块和索引器进行了探讨。最后,本文对上述系统进行了集成,并阐述构成一个完整的搜索引擎系统的方法,为搜索引擎的研究和开发提供了一个可行的框架。