三种用于垃圾网页检测的随机欠采样集成分类器

来源 :计算机应用 | 被引量 : 3次 | 上传用户:cox_7261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS
其他文献
介绍水下声学定位测量系统研制背景;讲述信号处理控制电路的总体设计方案,并从硬件设计以及软件设计方面对电路的设计思路进行了分析和阐述,给出了主要的电路设计模块框图和
国外某电厂重油冷却器10#钢换热管使用10个月即发生腐蚀穿孔泄露。通过对腐蚀穿孔换热管管样进行内外表面宏观及微观腐蚀检测、腐蚀产物化学成分分析、电化学试验分析、腐蚀
针对数字视频帧内对象被移除的篡改操作,提出了一种基于主成分分析(PCA)的篡改检测算法。首先对待测视频帧与基准帧相减得到的差异帧使用稀疏表示方法进行去噪,降低噪声对随后特征提取的干扰;其次将去噪后的视频帧进行非重叠分块,利用主成分分析提取像素点的特征并构造特征向量空间;然后使用k-means算法对特征向量空间进行分类,并将分类结果用二值矩阵表示;最后对二值矩阵进行图像形态学操作得到最终检测结果。实
随着GPS技术硬件和软件的发展与完善,其成为了我们变形监测和获取变形信息的重要手段,由于GPS在应用中受到多方面的误差源的影响,导致变形监测数据存在很多误差。本文列举了GPS变形监测中系统和偶然误差中的主要误差,尤其着重对偶然误差进行了分析并就其如何处理进行了探讨。
随着岩石锚杆基础在山区特高压输电线路工程中应用的逐步推广,其在工程项目总体经济效益、施工周期、环境保护及安全生产管理等方面已渐显优势.但其对以工程地质调查方法为主
文字是图像内容的重要表达,随着基于内容的图像检索技术的发展,复杂场景图像下的文字检测技术越来越受关注,针对此类图像对现有的主流算法进行了详细的研究。文字检测算法主要包括候选文本区域提取和文本/非文本分类两大核心步骤。首先,总结了近5年的21种主流算法在公开数据集ICDAR上的文字检测效果,数据显示现有文字检测算法依然存在低召回率的问题,召回率最高为0. 83;其次,对候选文本区域提取和文本/非文本
近日,在四川省科学技术奖励大会上,由国网四川省电力公司完成的《川电外送交直流输电系统安全稳定关键技术研究及防御控制系统实施》项目获得2013年度四川省科技进步一等奖。
信息化时代的到来,档案信息化建设也步入了快速通道,对照信息时代的要求,企业档案管理工作还存在信息技术水平有待提升、档案管理体系有待完善、工作重视程度有待提高、档案
针对MapReduce计算框架不能直接支持连接操作以及在数据倾斜情况下的连接操作会造成某一个或者某几个reducer负载过重降低集群性能的现状,提出了数据倾斜连接算法(DSJA)。该算法首先对关系表中连接键出现的频率进行统计,得到倾斜连接键和非倾斜连接键以及它们各自连接后产生的结果数量;其次按照结果数量的比例分配将集群中的reducer分为处理倾斜连接的reducer和处理非倾斜连接的reduce
在架空输电线路勘测过程中,常要求提供常年最高内涝水位或5年一遇最高内涝水位。然而,规程却未明确给出常年最高内涝水位的概念或定义。本文利用Pearson-川型分布和极值I型分布