基于遗传规划和集成学习的Web Spam检测关键技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:slovedw520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上的信息呈爆炸式增长,搜索引擎已成为日常生活中帮助人们发现其想要信息的重要工具。给定一个确定的查询,搜索引擎通常能返回成千上万个网页,但是大部分用户只读前几个,所以在搜索引擎中网页排名非常重要。因此,许多人采用一些手段来欺骗搜索引擎排序算法,使一些网页获得不应有的高排序值来吸引用户的关注,从而达到获取某方面利益的目的。所有试图增加网页在搜索引擎中排序的欺诈行为被称为Web Spam(网络作弊)。Web Spam严重降低了搜索引擎检索结果的质量,使用户在获取信息的过程中遇到巨大障碍,产生较差的用户体验。对于搜索引擎而言,即使这些作弊网页没有排得足够靠前来扰乱用户,抓取、索引和存储这些网页也需要成本。因此,识别Web Spam已成为搜索引擎的重要挑战之一。本文根据Web Spam数据集的特点,围绕基于网页特征构建分类器检测Web Spam方面进行了研究,主要工作包括以下三方面:(1)提出基于遗传规划学习判别函数检测Web Spam的方法将个体定义为检测Web Spam的判别函数,经过遗传操作,遗传规划就可以找到优化的判别函数来提高Web Spam的检测性能。然而,使用遗传规划产生判别函数时会出现一个问题,因为没有关于最优解的任何先验知识,所以很难知道个体的适当长度,如果个体长度太短,则个体中所包含的特征就会很少,个体的辨别力不高,对应函数表达式的分类性能就不好。要想充分利用Web Spam数据集中的内容、链接等特征,需要较长的判别函数,对应个体规模较大。对于由较大规模个体组成的种群,构造和搜索所需时间较长。基于较长判别函数是由若干较短判别函数组成的这一原理,本文提出通过遗传规划学习判别函数检测Web Spam,该方法先使用若干小规模的个体创建多个种群,每个种群经过遗传操作产生本种群的最好个体,然后再将每个种群所得的最好个体通过遗传规划进行组合得到更好的判别函数,从而利用较短时间就能产生性能更好的较长判别函数来检测Web Spam。本文还研究了表示个体的二叉树深度在遗传规划进化过程中的影响以及组合的效率。在WEBSPAM-UK2006数据集上进行了实验,实验结果表明,与单种群遗传规划相比,使用两次组合的多种群遗传规划能将召回率提高5.6%,F度量提高2.25%,正确率提高2.83%。与SVM相比,新方法将召回率提高了26%,F度量提高了11%,精确度提高了4%。(2)提出利用基于遗传规划的集成学习检测Web Spam的方法。目前多数基于分类检测Web Spam的方法只使用一种分类算法构造一个分类器,并且大都忽略了数据集中作弊样本和正常样本的不平衡性,即正常样本比作弊样本多很多。由于存在多种不同类型的Web Spam技术,新类型的Spam技术也在不断出现,期望发现一个万能分类器来检测所有类型的WebSpam是不可能的。所以,通过集成多个分类器的检测结果来找到增强分类器用于检测Web Spam是一种有效方法,并且集成学习也是解决非平衡数据集分类问题的有效方法之一。在集成学习中,如何产生多样的基分类器和如何组合它们的分类结果是两个关键的问题。本文提出利用基于遗传规划的集成学习来检测Web Spam,首先使用不同的分类算法分别在不同的样本集和特征集上进行训练产生多样的基分类器,然后使用遗传规划学习得到一个新颖的分类器,由它基于多个基分类器的检测结果给出最终检测结果。该方法根据Web Spam数据集的特点,利用不同的数据集合和分类算法产生差异较大的基分类器,利用遗传规划对基分类器的结果进行集成,不仅易于集成不同类型分类器的结果,提高分类性能,还能选择部分基分类器用于集成,降低预测时间。该方法还可以将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能。为了验证遗传规划集成方法的有效性,分别在平衡数据集和非平衡数据集上进行了实验。在平衡数据集的实验部分,首先分析了分类算法和特征集合对集成的影响,然后将其与已知集成学习算法进行比较,结果显示在准确率、召回率、F-度量、精确度,错误率和AUC方面,优于一些已知的集成学习算法;在非平衡数据集上的实验表明无论是同态集成还是异态集成,遗传规划集成均能提高分类的性能,且异态集成比同态集成更加有效;遗传规划集成比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。(3)提出基于遗传规划产生新特征检测Web Spam的方法。特征在分类中扮演着很重要的角色,Web Spam数据集中有96个内容特征、41个链接特征和138个转换链接特征,其中138个转换链接特征是41个链接特征的简单组合或对数操作,这些特征的产生不仅需要由专家来完成,还很耗费人力,并且也不易把不同类型(如内容特征和链接特征)的特征融合在一起。该方法提出利用遗传规划将已有特征进行组合从而产生更有区别力的新特征,然后将这些新特征作为分类器的输入来检测Web Spam。在WEBSPAM-UK2006数据集上的实验显示,使用10个新特征的分类器的分类结果好于使用原41个链接特征的分类器,与使用138个转换链接特征的分类器的性能相当。
其他文献
本文主要探讨了医院人事档案管理工作,分析了人事档案管理工作在医院管理中的重要地位和作用;分析了当前人事档案管理工存在的问题,并在此基础上提出了对策和建议。
近年来,我国沿海赤潮持续高频次发生,已严重影响到居民的饮水安全、水产养殖、水体景观价值等方面,造成了巨大的经济损失。我国各级政府部门和科研机构对有害赤潮进行快速监
档案为反映社会发展建设进程中的真实记录,属于一类特殊文化资源。本文就档案馆文化建设过程中存在的难题展开分析,并制定了科学有效的应对策略。对推进档案馆文化建设事业的稳
随着科学知识的普及,人们都明白空气是由无数的分子组成,在大自然中的宇宙射线、紫外线、土壤和放射线等的相互影响下,部分空气分子会释放出电子,这些电子很快又与空气中的中
据资料表明,海洋的神秘地带并不止百慕大三角区一个."神秘地区"至少有7个:百慕大三角区、日本海域三角区、大西洋附近海域、太平洋夏威夷至美国大陆间的海域、葡萄牙沿海、非
<正> 固定式塔机或外附式塔机一般都有一个混凝土基础。安装塔机前,将塔机基础节固定好,绑扎钢筋后浇捣混凝土基础。塔机使用完后,基础节就埋在混凝土里,转移一个工地,再埋设
目的:探讨老年患者门诊输液的心理问题及相应的护理对策。方法:选取输液的老年患者86例,进行心理状态分析,总结出老年患者门诊输液时最常见的心理问题,并采取相应的护理措施。
语义Web是万维网创始人Tim Berners-Lee提出的下一代网络,其目的在于让机器理解Web页面内容并为人类提供智能化的服务。经过十来年的发展,语义Web的基础理论和技术得到了长足
<正>南美白对虾肠道肩负着消化吸收、排泄排毒、病害防御等重大功能,近70%左右的免疫功能在肠胃系统;肠道的黏膜层是吸收和防御前沿部位,一旦被破坏,导致肠茸毛变短消失,则极
目的:比较两种不同消毒液对术前患者皮肤消毒效果。方法:将采用碘伏消毒液进行术前皮肤消毒的296例患者为对照组,使用3MTM爱护佳牌术前皮肤消毒液对316例患者术前皮肤消毒为实