论文部分内容阅读
网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音。本文提出一种基于局部语义的网页净化算法。算法遍历转化成DOM树后的网页,通过计算相邻节点的相似度,确定局部语义节点范围,然后提取局部语义信息,建立局部语义树模型,最后除去与网页主体的相关性低于预定阈值的局部语义节点,达到网页净化的目的。实验表明算法是有效的。