论文部分内容阅读
研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”这一选项的占44.6%,排名问题榜的第1位。如果搜索引擎能够找出这些重复网页并从数据库中去掉,不仅可以节省存储空间,也可以提高有效网页的收集速度,还可以根据网页的镜像度来制定更为合理的网页搜集策略和输出结果定序(Ranking)算法。因而,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。通过分析大量重复网页,本文发现重复网页有以下两个特征:①重复网页的正文可以表示成一棵正文结构树。其中标题为根结点,每个自然段按照其在正文结构中所处的层次表示为树相应层次的一个结点。②重复网页的正文内容很可能有所变化,但网页的正文结构形式通常不会改变或改变很小。即使最坏情况的分页转载形式,网页的正文结构也不会发生较大变化,只不过分页转载后的网页正文结构树是其原文正文结构树的一(几)棵子树分支。针对网页重复的特点和网页正文的结构特征,本文提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法先对网页进行必要的去噪处理,其次将网页正文通过正文结构树生成算法表示成一棵正文结构树(除根节点外,正文结构树的结点对应于正文中的自然段),然后动态地、层次地从树中抽取结点段落作为长句提取算法的输入得到层次指纹,最后通过层次指纹的相似度计算算法得到网页的相似度,从而实现镜像网页和近似镜像网页的检测。动态地、分层地对正文进行特征抽取和层次指纹计算,保证了去重算法的效率;通过长句提取算法得到结点指纹,保证了算法的鲁棒性。实验表明,该方法相对于基于自然段签名算法和基于长句提取算法有更好的召回率。该方法不仅解决了在正文前后添删信息的近似镜像网页,也解决了在正文中添删信息的近似镜像网页,还解决了分页转载的近似镜像网页。此方法在搜索引擎重复网页的过滤中有很好的应用前景和较高的研究价值。