论文部分内容阅读
垃圾网页指的是那些在搜索引擎查询结果中具有良好的排名而实际价值却较差的网站和网页。垃圾网页之所以会出现,是由于搜索引擎用户倾向于只点击那些排名靠前的链接。为了取得靠前的排名,各网站便想方设法采取各种手段优化网站。而通过正当手段提高网站排名,成本极其高昂,于是各种网页作弊手段轮番上阵。垃圾网页削弱了搜索引擎的权威性,浪费了大量计算与存储资源,剥夺了合法网站的正当利益,降低了搜索结果的质量。垃圾网页检测已成为搜索引擎最为重要的任务之一。本文根据垃圾网页检测WEBSPAM-UK2006和WEBSPAM-UK2007数据集的特点,围绕其基于内容的特征、基于链接的特征、基于链接转换的特征以及基于网络图的相关特征,采用欠采样集成C4.5决策树的方法,进行垃圾网页检测研究。主要工作以及取得的成果可概括为如下四个方面。(1)提出三种随机欠采样集成算法(C4.5+RUS-once、C4.5+RUS-multiple、C4.5+RUS-replacement)用于垃圾网页检测,这些方法从样本平衡和多样化的角度,提升分类性能,特别是后两种方法,通过欠采样集成的方式,创立大量多样化的C4.5分类器并集成,将垃圾网页检测的性能达到现有的最优结果。另外,还提出一种同时基于样本欠采样和特征集划分两种子分类器多样化方法(C4.5+FP+RUS),其分类性能也达到了现有的最优结果,大幅度提高垃圾网页检测的分类效果。(2)提出一种免疫克隆选择算法(ICFSUS-ERC4.5)用于特征选择,选择出多个最优特征子集用于垃圾网页检测,充分利用样本欠采样和特征选择两种子分类器多样化方法,进一步提升了垃圾网页检测的分类性能,其分类结果超过了现有的最优分类方法的结果。(3)对免疫网络优化算法(opt-aiNet)加以改进,提出一种基于免疫网络特征划分和欠采样集成的分类器(NFPUS-EC4.5)用于垃圾网页检测。针对特征划分结合欠采样集成的方法可提高垃圾网页检测的准确率的结论,提出一种设想:是否有一种最优的特征划分方法,基于此种特征划分的特征子集训练得到的集成分类器是是最优的?针对这样一种设想,对免疫网络优化算法opt-aiNet加以改进用于特征划分。但最终的实验结果表明:基于免疫网络的特征划分算法,确实是一种良好的寻优算法,但将其用于分类任务,仅对训练集有效,对测试集无效,即容易导致过度拟合,对于提高分类器的最终分类效果并没有作用。(4)根据协同森林算法Co-Forest的基本思想,提出一种协同训练算法,利用网页特征集是充分且冗余的这一假设,针对特征子集和样本子集的差异性,构建多个集成分类器,训练未知样本用于增强最终的集成分类器。实验结果表明,该改进协同森林算法利用未标注样本,提高了最终的分类性能。