基于 KPCA 和 RST 的不平衡垃圾网页检测

来源 :山东师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:gaolch002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点,从两个方面综合处理数据集。首先利用核主成分分析(KPCA)进行特征提取,选择出最具代表性的特征,实现特征降维,再通过重构数据集(RST),将数据集重新划分组合成新的训练子集,降低其不平衡度,最后使用处理后的数据子集训练分类器。在数据集 Webspam - UK2007上进行实验。实验结果表明,使用平衡和降维后的数据集训练的分类器,可有效提高垃圾网页的识别精度。
其他文献
论述了将符号当作一种方法论去认识广告,以裨益于广告的创意表现,因而讨论了广告在传播中的价值,并提出在当代市场传播环境中,关于符号传播研究和实践的迫切性。
大千世界,林林总总,有多少美的风景、美的图画,需要我们睁大心灵的眸子去发现,去欣赏,去感悟──【小引】大千世界,五光十色,包罗万象,社会生活,千姿百态,丰富多彩,能触动我
本文通过对湖北省有关地区贝母属药用植物2年的实地调查和分类鉴定研究,报道了8种(包括1变种)贝母属药用植物的分布、生境、分类鉴定以及部分栽培、商品和使用情况。其中有3
对于电脑知识匮乏的用户而言,能够搞清楚的传送文件接收方式只有三种:加QQ传输 、给出地址下载和使用U盘这样的移动设备复制。但是在遇到如电脑跨平台传送文件给手机、平板电脑的时候,在没带数据线的情况下许多人想到的只能是传邮箱这样费时又费力的方法。其实局域网内的用户不用网上邻居这种颇为复杂的设置,也还有许多传送的办法,比如借助搜索软件Everything 可以开启Web服务的小功能,就可以直接把自己的电
所州火柴人(stickman),是指Flash动画中经常出现的只有一个圆脑袋和杆状四肢的简易形象。
针对指纹图像分割的问题,笔者提出了一种基于小波变换突变信号分析原理对指纹边缘进行检测。并结合最小二乘法拟合方法的指纹检测和分割算法。该算法首先将原指纹图像利用平滑
基于对知识管理的基本理论的研究,从企业主要的创新活动——新产品开发活动出发,深入具体的业务层面对具体的涉及到的知识进行分析归纳,并对新产品开发中设计知识管理的流程和新
针对移动用户好友关系挖掘问题,利用无线网络终端传感器发现近邻节点,通过对社会关系指标进行排序预测潜在的用户好友,并按照关系紧密程度推荐给用户.这是一种隐式的挖掘方法
针对我国发展无水胶印的需要,利用抽样调查和数理统计的原理分析了无水胶印印刷适性参数K,计算得到了无水胶印过版纸张数量远小于有水胶印,对生产实践有很大的指导意义.
你是我们的山,你是我们的天,你是咱家的脊梁,你是幸福的源泉……你支撑着这个家,春与秋代序,夏和冬轮转,眨眼间十几年过去了,你的肩膀瘦削了,你的脊背弯了……