论文部分内容阅读
垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点,从两个方面综合处理数据集。首先利用核主成分分析(KPCA)进行特征提取,选择出最具代表性的特征,实现特征降维,再通过重构数据集(RST),将数据集重新划分组合成新的训练子集,降低其不平衡度,最后使用处理后的数据子集训练分类器。在数据集 Webspam - UK2007上进行实验。实验结果表明,使用平衡和降维后的数据集训练的分类器,可有效提高垃圾网页的识别精度。