论文部分内容阅读
随着单个web站点的日益庞大,web超链结构的日趋复杂,传统的建立在单个网页和单纯超链结构上的web模型已很难适应基于各种不同应用需求的web分析。为有效解决web分析所需知识的表示、应用与获取问题,新的web模型应能充分体现网页间的逻辑关联信息以及网站内部的组织结构特征。本文首先建立了一种新的web站点逻辑结构模型,然后提出了三种web逻辑结构挖掘算法并实现了一个完整的web站点逻辑结构自动生成系统。在实验部分,通过对当前几个大型的知名web站点进行实际测试,以及与wen syan li等人的经典算法进行对比测试,表明算法在精度上能够达到较好的水平,而在效率上则有明显优势。本文所作的工作主要有以下几点: (1) 提出了建立在web站点逻辑域及其导入路径之上的web站点逻辑结构模型。 (2) 以上述模型为最终目标,提出了两种逻辑域挖掘算法和一种逻辑域导入路径挖掘算法,分别是:基于网页分块聚类和基于逻辑域核的web站点逻辑域挖掘算法以及基于启发式规则的逻辑域导入路径挖掘算法。 (3) 以上述算法为基础,设计并实现了web站点逻辑结构自动生成系统。该系统能够自动从给定站点的入口地址,抓取回指定数量的网页。对取回的网页,生成其基于超链拓扑结构的有向图和储存每个网页相关信息的网页信息库,并以这两个数据结构为基础,通过运行上述算法,最终得到web站点的整体逻辑结构。 (4) 考虑到算法的可用性,在算法的效率上也进行了较深入的研究。对耗时最多的基于逻辑域核的挖掘算法,其时间复杂度被从O(n~3)降低到k~*O(n~2)(k为常数)。 (5) 在实验部分通过对两种逻辑域挖掘算法进行对比实验,并与wen syan li等人提出的web逻辑域挖掘算法进行对比实验,证明了基于逻辑域核的web站点逻辑域挖掘算法在精度,适应性和效率上有一定优势。而逻辑域导入路径挖掘算法的精度则相对较低,这与采用的启发式规则有关,也是今后要进一步研究和改进的方向。