论文部分内容阅读
随着网络上的信息呈爆炸式增长,搜索引擎已成为日常生活中帮助人们发现其想要信息的重要工具。给定一个确定的查询,搜索引擎通常能返回成千上万个网页,但是大部分用户只读前几个,所以在搜索引擎中网页排名非常重要。因此,许多人采用一些手段来欺骗搜索引擎排序算法,使一些网页获得不应有的高排序值来吸引用户的关注,从而达到获取某方面利益的目的。所有试图增加网页在搜索引擎中排序的欺诈行为被称为Web Spam(网络作弊)。Web Spam严重降低了搜索引擎检索结果的质量,使用户在获取信息的过程中遇到巨大障碍,产生较差的用户体验。对于搜索引擎而言,即使这些作弊网页没有排得足够靠前来扰乱用户,抓取、索引和存储这些网页也需要成本。因此,识别Web Spam已成为搜索引擎的重要挑战之一。本文根据Web Spam数据集的特点,围绕基于网页特征构建分类器检测Web Spam方面进行了研究,主要工作包括以下三方面:(1)提出基于遗传规划学习判别函数检测Web Spam的方法将个体定义为检测Web Spam的判别函数,经过遗传操作,遗传规划就可以找到优化的判别函数来提高Web Spam的检测性能。然而,使用遗传规划产生判别函数时会出现一个问题,因为没有关于最优解的任何先验知识,所以很难知道个体的适当长度,如果个体长度太短,则个体中所包含的特征就会很少,个体的辨别力不高,对应函数表达式的分类性能就不好。要想充分利用Web Spam数据集中的内容、链接等特征,需要较长的判别函数,对应个体规模较大。对于由较大规模个体组成的种群,构造和搜索所需时间较长。基于较长判别函数是由若干较短判别函数组成的这一原理,本文提出通过遗传规划学习判别函数检测Web Spam,该方法先使用若干小规模的个体创建多个种群,每个种群经过遗传操作产生本种群的最好个体,然后再将每个种群所得的最好个体通过遗传规划进行组合得到更好的判别函数,从而利用较短时间就能产生性能更好的较长判别函数来检测Web Spam。本文还研究了表示个体的二叉树深度在遗传规划进化过程中的影响以及组合的效率。在WEBSPAM-UK2006数据集上进行了实验,实验结果表明,与单种群遗传规划相比,使用两次组合的多种群遗传规划能将召回率提高5.6%,F度量提高2.25%,正确率提高2.83%。与SVM相比,新方法将召回率提高了26%,F度量提高了11%,精确度提高了4%。(2)提出利用基于遗传规划的集成学习检测Web Spam的方法。目前多数基于分类检测Web Spam的方法只使用一种分类算法构造一个分类器,并且大都忽略了数据集中作弊样本和正常样本的不平衡性,即正常样本比作弊样本多很多。由于存在多种不同类型的Web Spam技术,新类型的Spam技术也在不断出现,期望发现一个万能分类器来检测所有类型的WebSpam是不可能的。所以,通过集成多个分类器的检测结果来找到增强分类器用于检测Web Spam是一种有效方法,并且集成学习也是解决非平衡数据集分类问题的有效方法之一。在集成学习中,如何产生多样的基分类器和如何组合它们的分类结果是两个关键的问题。本文提出利用基于遗传规划的集成学习来检测Web Spam,首先使用不同的分类算法分别在不同的样本集和特征集上进行训练产生多样的基分类器,然后使用遗传规划学习得到一个新颖的分类器,由它基于多个基分类器的检测结果给出最终检测结果。该方法根据Web Spam数据集的特点,利用不同的数据集合和分类算法产生差异较大的基分类器,利用遗传规划对基分类器的结果进行集成,不仅易于集成不同类型分类器的结果,提高分类性能,还能选择部分基分类器用于集成,降低预测时间。该方法还可以将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能。为了验证遗传规划集成方法的有效性,分别在平衡数据集和非平衡数据集上进行了实验。在平衡数据集的实验部分,首先分析了分类算法和特征集合对集成的影响,然后将其与已知集成学习算法进行比较,结果显示在准确率、召回率、F-度量、精确度,错误率和AUC方面,优于一些已知的集成学习算法;在非平衡数据集上的实验表明无论是同态集成还是异态集成,遗传规划集成均能提高分类的性能,且异态集成比同态集成更加有效;遗传规划集成比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。(3)提出基于遗传规划产生新特征检测Web Spam的方法。特征在分类中扮演着很重要的角色,Web Spam数据集中有96个内容特征、41个链接特征和138个转换链接特征,其中138个转换链接特征是41个链接特征的简单组合或对数操作,这些特征的产生不仅需要由专家来完成,还很耗费人力,并且也不易把不同类型(如内容特征和链接特征)的特征融合在一起。该方法提出利用遗传规划将已有特征进行组合从而产生更有区别力的新特征,然后将这些新特征作为分类器的输入来检测Web Spam。在WEBSPAM-UK2006数据集上的实验显示,使用10个新特征的分类器的分类结果好于使用原41个链接特征的分类器,与使用138个转换链接特征的分类器的性能相当。