论文部分内容阅读
网页内容提取对Web中的Hub型网页和主题型网页有不同的含义。对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接。网页内容提取的质量将直接影响到信息检索的查全率和查准率,以及对网页分类/聚类的质量。文中提出了基于多特征的网页内容提取算法。该方法的特点是具有鲁棒性和适用于对海量网页的主题内容提取。实验表明,新算法在处理形式各异的网页内容提取中,在提取正确率等指标上明显优于目前已知的方法。