论文部分内容阅读
提出了一种基于LCS的特征树最大相似性匹配网页去噪算法.通过将目标网页和相似网页转化为特征树,并将特征树映射为一个特征节点序列,利用LCS算法能获得最长子序列全局最优解的特点,找出两棵特征树之间的不同节点作为候选集,并对候选集进行聚集评分找出网页重要内容块.给出了算法的原型系统,并对每一个模块的实现做了详尽的描述.