基于主动学习的非均衡数据分类研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户：alangao12345

【摘要】

：

自古以来,人们不断积攒着各个不同领域的数据,而近些年随着计算机技术的飞速发展,数据的接收和存储变得极其简单快捷,导致海量的数据快速积累,如何从这海量数据中取得有效信

【作者】

：

李卓然

【出处】

：

辽宁师范大学

【发表日期】

：

2012年期

【关键词】

：

非均衡数据主动学习分类集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自古以来,人们不断积攒着各个不同领域的数据,而近些年随着计算机技术的飞速发展,数据的接收和存储变得极其简单快捷,导致海量的数据快速积累,如何从这海量数据中取得有效信息则成为了现今亟待解决的问题。数据挖掘,作为从海量数据中获得有用信息的数据分析技术,应运而生,此技术的发展有效提高了大量闲置数据的利用率,对未来发展具有极高的指导意义。分类任务,即确定对象属于哪一预定义目标类,在数据挖掘中是最常见和最重要的技术。至今,分类技术的发展已进入较成熟阶段。传统的分类方法大多数是基于均衡数据集的,即基于数据类别分布大致相同,误分类代价大致相同的数据集。而现实的分类问题中存在很多类别非均衡的情况,如信用卡欺诈检测、医疗诊断、信息检索和文本分类等,数据集中某个类别的样本数可能会远多于其他类别。在这些情况下,分类器通常会倾向于将测试样本全部归类为多数类而忽视少数类样本,这将导致得到的分类器在少数类样本上效果很差。非平衡数据集自身的特点以及传统分类算法的局限性是对非均衡数据集进行准确可靠分类的关键制约因素。因此,非均衡数据集的分类问题已逐渐成为机器学习和模式识别领域中的研究热点。基于非均衡数据分类的重要性,本文提出了两种解决方案：1)基于主动学习SMOTE的非均衡数据分类：少数类样本合成过采样技术(SMOTE)是一种著名的重采样方法,但它会带来噪音等问题,影响分类精度。为解决此问题,本文提出一种基于主动学习SMOTE的非均衡数据分类方法ALSMOTE。提出的ALSMOTE方法采用基于距离的主动选择最佳样本的学习策略,并与支持向量机相结合,改进了SMOTE方法的局限性。实验结果表明,该方法有效提高了非均衡数据的分类准确率。2)基于集成的非均衡数据分类主动学习算法：当前,处理类别非均衡数据采用的主要方法之一就是重采样,主要包括过取样和欠取样,然而过取样和欠取样都有自己的不足,本文提出了拆分集成主动学习算法SBAL (Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法分类,并基于QBC主动学习算法选取有效样本进行训练,这样基本避免了增加样本或者减少样本所带来的不足。实验表明,本文提出的算法对于非均衡数据具有更高的分类精度。

其他文献

丽蝇蛹集金小蜂寄主定位及气味结合蛋白分析

丽蝇蛹集金小蜂是膜翅目的一种特异性外寄生蜂,主要寄生蝇蛹,包括丽蝇、麻蝇、家蝇等多种蝇类,是很好的蝇类生物防治物种,具有良好的发展前景。本文以丽蝇蛹集金小蜂为研究对象,结合行为学的方法探究寄生蜂触角在寄主定位中的作用以及主要的作用部位;利用分子生物学技术探究寄生蜂触角中的气味结合蛋白分布情况,利用RNA干扰技术探究气味结合蛋白在寄生蜂寄主定位及选择中的作用。1.丽蝇蛹集金小蜂触角在寄主定位中的作用

学位

丽蝇蛹集金小蜂寄生蜂触角寄主定位气味结合蛋白

基于NewMap的大比例尺居民地数据综合方法的研究

随着计算机制图技术的迅猛发展,地图数据库和地理信息系统的建立,地图综合从传统的人工时代进入数字时代。在数字环境下,目标由于其应用目的和重要性的不同,而影响自身在地图

学位

NewMapWJ-III无级地图工作站地图自动综合居民地合并居民地化简

中药汤剂煎煮技术文献研究

中药汤剂是最能体现中医整体观念与辨证论治特色的剂型,疗效确切,应用广泛,至今在中医临床上仍发挥着重要作用。汤剂质量与煎煮技术的规范化有密切关系。清代医家徐大椿《医

学位

煎煮技术文献研究中药汤剂

绞股蓝防治代谢综合征研究进展

现代生活方式导致的代谢综合征（MS）发病率急剧上升。2002年，我国18岁以上的人群MS的患病率为6．6％，其中男性为6．8％，女性为6．4％。城市的患病率高于农村。超重和肥胖是MS的最重要的危险因素

期刊

代谢综合症绞股蓝研究进展

基于纹理特征的遥感图像检索技术研究

随着航空航天技术、传感器技术、网络技术、数据库技术的飞速发展,可获取的遥感图像数据正在以惊人的速度成指数级急剧增长。如何从众多的大型遥感图像数据库中,快速浏览和高

学位

纹理特征基于内容的图像检索感兴趣区域纹理谱小波分解基于内容的遥感图像检索分块组织

混凝土泵车臂架系统有限元分析及改进

近年来随着国家一带一路战略的展开,国内外基础设施建设大规模开展,工程机械市场日趋红火,混凝土泵车的市场需求量日益增加。混凝土泵车是一种将混凝土泵送到一定高度和距离

学位

混凝土泵车臂架系统有限元应变测试

基于强区分性区域的细粒度图像分类研究

随着科学技术的发展,人们对计算机图像分类的要求越来越高,传统的粗粒度图像分类越来越不能满足分类任务的需求。近年来,细粒度图像分类任务(Fine-Grained Recognition)在计

学位

细粒度图像分类强区分性区域SD-SVM多尺度优选

司法工作走群众路线的有益探索

司法工作走群众路线，是我国人民民主专政国家性质的必然要求，也是我国司法工作人民性的具体体现，更是我国一贯坚持的司法特色。在我国当前经济社会快速发展、社会矛盾多发的新形

报纸

“雕根”之道——浅析美术课转变“差生”的有效做法

农村初中教学中存在部分潜力生,其往往在美术学习中存在学习困难的现象。在美术教学中,教师要重视学生的思想教育,帮助学习有困难的学生树立学习信心,克服学习中的困难,做好

期刊

美术教学转变潜力生

阳离子脂质体介导血管抑素或/和内皮抑素基因治疗Lewis肺癌小鼠的实验研究

目的：观察SA阳离子脂质体介导血管抑素基因和/或内皮抑素基因对Lewis肺癌小鼠移植瘤生长、转移的抑制作用。方法：选择C57BL/6j小黑鼠，皮下注射Lewis肺癌细胞悬液建立肺癌动物模

学位

Lewis肺癌内皮抑素血管抑素基因治疗

基于主动学习的非均衡数据分类研究

与本文相关的学术论文