基于欠采样和不平衡集成分类的垃圾网页检测研究

来源 :南昌大学 | 被引量 : 1次 | 上传用户:zhang5832
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾网页指的是那些在搜索引擎查询结果中具有良好的排名而实际价值却较差的网站和网页。垃圾网页之所以会出现,是由于搜索引擎用户倾向于只点击那些排名靠前的链接。为了取得靠前的排名,各网站便想方设法采取各种手段优化网站。而通过正当手段提高网站排名,成本极其高昂,于是各种网页作弊手段轮番上阵。垃圾网页削弱了搜索引擎的权威性,浪费了大量计算与存储资源,剥夺了合法网站的正当利益,降低了搜索结果的质量。垃圾网页检测已成为搜索引擎最为重要的任务之一。本文根据垃圾网页检测WEBSPAM-UK2006和WEBSPAM-UK2007数据集的特点,围绕其基于内容的特征、基于链接的特征、基于链接转换的特征以及基于网络图的相关特征,采用欠采样集成C4.5决策树的方法,进行垃圾网页检测研究。主要工作以及取得的成果可概括为如下四个方面。(1)提出三种随机欠采样集成算法(C4.5+RUS-once、C4.5+RUS-multiple、C4.5+RUS-replacement)用于垃圾网页检测,这些方法从样本平衡和多样化的角度,提升分类性能,特别是后两种方法,通过欠采样集成的方式,创立大量多样化的C4.5分类器并集成,将垃圾网页检测的性能达到现有的最优结果。另外,还提出一种同时基于样本欠采样和特征集划分两种子分类器多样化方法(C4.5+FP+RUS),其分类性能也达到了现有的最优结果,大幅度提高垃圾网页检测的分类效果。(2)提出一种免疫克隆选择算法(ICFSUS-ERC4.5)用于特征选择,选择出多个最优特征子集用于垃圾网页检测,充分利用样本欠采样和特征选择两种子分类器多样化方法,进一步提升了垃圾网页检测的分类性能,其分类结果超过了现有的最优分类方法的结果。(3)对免疫网络优化算法(opt-aiNet)加以改进,提出一种基于免疫网络特征划分和欠采样集成的分类器(NFPUS-EC4.5)用于垃圾网页检测。针对特征划分结合欠采样集成的方法可提高垃圾网页检测的准确率的结论,提出一种设想:是否有一种最优的特征划分方法,基于此种特征划分的特征子集训练得到的集成分类器是是最优的?针对这样一种设想,对免疫网络优化算法opt-aiNet加以改进用于特征划分。但最终的实验结果表明:基于免疫网络的特征划分算法,确实是一种良好的寻优算法,但将其用于分类任务,仅对训练集有效,对测试集无效,即容易导致过度拟合,对于提高分类器的最终分类效果并没有作用。(4)根据协同森林算法Co-Forest的基本思想,提出一种协同训练算法,利用网页特征集是充分且冗余的这一假设,针对特征子集和样本子集的差异性,构建多个集成分类器,训练未知样本用于增强最终的集成分类器。实验结果表明,该改进协同森林算法利用未标注样本,提高了最终的分类性能。
其他文献
长吻鮠是我国特有的名贵淡水经济鱼类,池塘养殖长吻鮠,放养冬片鱼种养到年底个体重可达350~750g。本文从池塘选择与苗种放养、饲养管理与疾病防控等方面,介绍了长吻鮠池塘养殖
在北美等多地震地区得到广泛应用的轻型木结构具有优越的抗震性能,其中的木框架剪力墙是该结构房屋的主要抗侧力构件。由于这种结构在我国还未得到很好的发展,所以本文木框架
【摘 要】 名师有敢于在教育教学实践中探索的勇气,有践行理念、反思实践的智慧,有不断创新、坚持进步的品格。在语文名师众多教学经验中,本文将结合实际教学,从教学习惯、教学方法两个方面,浅谈他们对青年教师的启迪。  【关键词】 高中语文名师;青年教师;启迪  对大部分青年教师而言,特别是刚刚步入教育领域的新老师,借鉴名师的教学经验、行之有效的教学方法是帮助自身迅速成长的有效方法。如若青年教师们将语文名
庄浪县属国家黄土高原丘陵沟壑区,是国家重点扶贫特困县之一。面对恶劣的生存环境,从20世纪60年代开始,庄浪县历届县委、县政府带领全县人民开展了兴修梯田、流域治理、淤地
本文主要例举羽毛球的教学状况,以咸阳某所高校的羽毛球选课教学进行调查,分析教师的创新教学方式,讨论开放式教学对羽毛球教学的影响。确保通过高校对羽毛球的教育改革提高
<正> 张仲景从小很好学,读了许多有关科学技术的书,他的族人中有个叫张伯祖的,是个极有声望的医生,看到张仲景天资高,又有钻研精神,就把所有的学识都传授给了张仲景,张仲景把
期刊
藏医治疗肠炎病根据《四部医典》中记载的三因学说"龙"、"赤巴"、"培根"来进行症候分类,分为"龙"型、"赤巴"型、"培根"型,它最终五元学说和寒热性质来分成寒症和热症。治疗上藏医主要根据