基于 KPCA 和 RST 的不平衡垃圾网页检测

来源 :山东师范大学学报：自然科学版 | 被引量 : 0次 | 上传用户：gaolch002

【摘要】

：

垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点，从两个方面综合处理数据集。首先利用核主成分分析（KPCA）进行特征提取，选择出最具代

【作者】

：

项雪琰高玲魏亚利

【机构】

：

山东师范大学信息科学与工程学院

【出处】

：

山东师范大学学报：自然科学版

【发表日期】

：

2015年3期

【关键词】

：

垃圾网页检测不平衡数据 KPCA 高斯核函数重构数据集 Webspam detection imbalance data KPCA Gaussian

【基金项目】

：

国家自然科学基金资助项目（61170145,61373081）,教育部博士点基金资助项目（20113704110001）,山东省自然科学基金资助项目（ZR2010FM021）,山东省科技攻关计划项目（2013GGX10125）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点，从两个方面综合处理数据集。首先利用核主成分分析（KPCA）进行特征提取，选择出最具代表性的特征，实现特征降维，再通过重构数据集（RST），将数据集重新划分组合成新的训练子集，降低其不平衡度，最后使用处理后的数据子集训练分类器。在数据集 Webspam - UK2007上进行实验。实验结果表明，使用平衡和降维后的数据集训练的分类器，可有效提高垃圾网页的识别精度。

其他文献

广告符号在传播中的价值

论述了将符号当作一种方法论去认识广告,以裨益于广告的创意表现,因而讨论了广告在传播中的价值,并提出在当代市场传播环境中,关于符号传播研究和实践的迫切性。

期刊

广告符号价值特指集合性形式系统

借我一双慧眼吧

大千世界,林林总总,有多少美的风景、美的图画,需要我们睁大心灵的眸子去发现,去欣赏,去感悟──【小引】大千世界,五光十色,包罗万象,社会生活,千姿百态,丰富多彩,能触动我

期刊

社会生活感悟生活日常生活欣赏写作图画心灵例文发现拓展

中药贝母类的研究——Ⅳ.湖北贝母属药用植物资源

本文通过对湖北省有关地区贝母属药用植物2年的实地调查和分类鉴定研究,报道了8种(包括1变种)贝母属药用植物的分布、生境、分类鉴定以及部分栽培、商品和使用情况。其中有3

期刊

药用植物资源新种新变种利川贝母蒲圻贝母鄂北贝母紫花鄂北贝母

本地目录变网页跨平台传送很简单

对于电脑知识匮乏的用户而言，能够搞清楚的传送文件接收方式只有三种：加QQ传输、给出地址下载和使用U盘这样的移动设备复制。但是在遇到如电脑跨平台传送文件给手机、平板电脑的时候，在没带数据线的情况下许多人想到的只能是传邮箱这样费时又费力的方法。其实局域网内的用户不用网上邻居这种颇为复杂的设置，也还有许多传送的办法，比如借助搜索软件Everything 可以开启Web服务的小功能，就可以直接把自己的电

期刊

传送文件跨平台电脑知识网页目录移动设备下载文件WEB服务

画出自己的火柴人历险记

所州火柴人（stickman），是指Flash动画中经常出现的只有一个圆脑袋和杆状四肢的简易形象。

期刊

火柴FLASH动画B平台IOS

一种基于突变信号分析和最小二乘法的指纹图像分割算法

针对指纹图像分割的问题，笔者提出了一种基于小波变换突变信号分析原理对指纹边缘进行检测。并结合最小二乘法拟合方法的指纹检测和分割算法。该算法首先将原指纹图像利用平滑

期刊

指纹图像分割突变信号分析最小二乘法拟合平滑处理高斯卷积segmentation of fingerprint image mutations sign

新产品开发中的设计知识管理

基于对知识管理的基本理论的研究，从企业主要的创新活动——新产品开发活动出发，深入具体的业务层面对具体的涉及到的知识进行分析归纳，并对新产品开发中设计知识管理的流程和新