面向不平衡样本分类的过采样集成学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:justoka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡样本分类是指对某一类样本数远多于其他类的数据集进行模式分类的问题,重点关注的是对少数类样本的识别。然而传统分类器为了追求全局准确率而倾向于将少数类误分类为多数类,针对该问题我们从数据层面和算法层面提出了相应的解决方法,以提高对少数类的识别准确率。不平衡样本分类方法主要从数据层面和算法层面考虑。在数据层面,过采样算法能够增加样本信息,有助于少数类的识别。其中,BorderLine过采样算法以及Adaptive Smote过采样算法存在边界少数类样本识别不准确的问题,导致对于种子少数类样本选择不准确,难以合成符合样本分布的数据集;算法层面的方法主要通过修改现有分类器的损失函数实现,该类方法可使分类器更加注重少数类样本从而提高对少数类样本的识别准确率。其中,代价敏感ADC2算法样本的权重更新只考虑了基分类器准确率对下一轮样本权重的更新的影响,而没有考虑样本分布对样本权重更新的影响。AdaBoost算法存在少数类样本误分类总权重小于多数类误分类总权重的问题,该问题使得分类器对少数类分类准确率降低。本文针对过采样方法以及集成分类器在处理不平衡问题中存在的不足,在原有算法的基础之上做了一些改进使得改进后的算法能够提高对少数类样本的识别准确率。其中,针对采样比例计算不准确的问题,提出了改进的带权过采样算法和多数类带权投票过采样算法。改进的带权过采样算法按照边界少数类样本的重要程度进行相应比例过采样,多数类样本带权投票过采样算法通过多数类对少数类的带权投票结果决定少数类采样比例,使得每个少数类样本的过采样比例更加准确;针对代价敏感算法ADC2在权重调整时未考虑样本分布对权重更新影响的问题,提出了动态权重调整因子集成学习算法。该方法使用两类样本权重总和的比值作为调整样本权重大小的因子,使得AdaBoost集成算法对少数类更加重视。针对AdaBoost算法对少数类样本误分类总权重不够大的问题,提出BalanceBoost算法,通过修改现有AdaBoost算法,使得每一类都有一个相等的误分类权重总和,这样每一类得到平等对待。我们将改进的带权过采样算法和BalanceBoost算法相结合得到改进的带权过采样BalanceBoost集成学习算法,并将该算法应用于不平衡样本分类问题中。
其他文献
《社交媒体的政治威力》(ThePolitical Power of Social Media)是最新一期《外交事务》(Foreign Affairs)的封面文章,它所说的社交媒体是针对传统媒体而言的基于互联网的新媒
本文针对当前国内外对工业化、信息化和绿色化互动问题研究的局限,基于物理学科中的耦合理论,探讨工业化、信息化和绿色化互动评价模型,并以2009—2015年中国省域数据为支撑
<正>郭先生与用人单位某实业公司签订了为期1年的劳动合同,试用期却约定了3个月。郭先生认为公司违法约定试用期,要求支付赔偿金,得到劳动仲裁委员会支持。实业公司却提起诉
主要介绍5500t成品油船作为一新型中小型液货船,在满足国际公约、世界主要石油组织和船东特殊要求上的一些设计特点。
从古至今,技术一直在机器和身体这两个看似完全不同的范畴中往来穿梭,并且一直在为两个范畴的融合而效力,试图消解二者的边界。身体与机器,看似泾渭分明的两个范畴,其实一直关系暖
高职院校思想政治教育课是对大学生进行思想政治教育的主渠道,肩负着培养中国特色社会主义事业合格建设者和可靠接班人的重要职责。在具有充满创新性的21世纪,高职院校思想政治
天津两大钢铁企业分别采用 LJS-FGD 技术和石灰-石膏湿法工艺进行烧结烟气脱硫。通过分析两种脱硫方法的工程实践数据,从其脱硫效果、除尘脱硝效果、能耗技术指标等方面对两种
本文在详细介绍关联理论的基础上,从基础修辞、创新修辞和文学描写修辞学三个方面讨论该理论的创新观点,从而展示关联理论对汉语修辞研究的广泛应用前景。
"‘教育生态学’这一科学术语最早是由美国学者劳伦斯&#183;克雷明于1976年在《公共教育》一书中提出的,"1其概念为"依据生态学的原理,特别是生态系统、生态平衡以及协同进化等
笔者拟从大学生业余体育参与这一纬度,分析参与持续时间周、频度次、时间分、强度4个因子对特质焦虑的影响,以期为大学生运动健心及高校开展健康教育提供参考依据。