论文部分内容阅读
Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利用信息检索的技术以及Web网页的特征,提取网页的主题以及和主题相关的内容,从而达到网页净化的目的.该方法已经应用于搜索引擎系统(天网)的网页消重过程以及一个网页自动分类系统.通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性.