论文部分内容阅读
Web InfoMall是一个历史网页的存储和展示系统,已经存储了从2001年至今的中国互联网上近50亿网页,并且数据量以每月3000万的速度增长着。当网页数据被收集到系统中后,需要经过复杂的网页分析过程来提取页面的各种属性,随着数据量的不断增大,该过程消耗的资源也会不断增加,这使得提高网页分析的效率成为了一个重要的课题。随着互联网的发展,网页模板的使用越来越普遍,为了给用户更好的体验,大多数门户网站都选择采用模板技术生成自己的网页。相关研究表明,模板内容占互联网网页内容的比例在50%以上,并且模板内容的规模以每年6%的速度快速增长着。通过对网页模板的分析我们发现,相同模板的网页往往具有相同或者相似的网页属性,例如网页类型、主题分类和页面重要度等,这意味着通过模板匹配的方法可以达到快速分析网页相关属性的目的,对于减少网页分析过程的资源消耗有非常重要的意义。 本文提出了一种基于Simhash的网页模板聚类算法。本文选取了链接路径作为网页的模板特征,采用Simhash算法为每个网页计算一个64位特征值代表网页的模板特征,网页之间的Simhash特征值越相似,对应网页的模板就越相似。然后提出了一种模板聚类算法对网页进行模板聚类,选取对普遍的模板特征值作为聚类中心,具有相似Simhash特征值的网页被聚类到一起,每个聚类代表一个网页模板。基于网页模板聚类的结果,本文提出了一种网站模板树的构造方法。网站模板树是指一个网站使用的所有模板的树状结构,方便对站内网页模板进行管理。首先采用广度优先算法自顶向下构造网站连接图,然后通过链接规约的方式把网站连接图规约为网站的模板树。在构造模板树的过程中,本文提出了一种基于模板的网页类型判断优化算法,可以大大提高网页类型判断的准确率。同时,本文提出了一种基于网站模板树的网页分类算法,在快速对模板对应的网页集合进行主题分类的同时,达到细化模板树的目的。最后,实现了一种基予网站模板树的网页模板查询系统来提高、WebInfoMall系统中网页分析过程的系统效率。当网页从互联网被收集到系统中后,优先在模板查询系统中进行模板匹配,匹配命中的网页可以快速得到该模板对应的相关网页属性,这样可以大大减少网页分析过程对于系统资源的占用。