【摘 要】
:
近十年来,不平衡数据分类算法已成为机器学习领域的重要研究方向之一。在不平衡数据分类问题中,由于各类之间的样本数据量极度不平衡,少数类样本容易被多数类样本吞噬,造成分类器模型在分类时无法有效识别少数类。在现实生活中,不平衡数据分类应用范围广泛,如网络入侵检测、银行欺诈监测、机器故障诊断等。因此,研究如何提高分类算法对不平衡数据的分类性能具有重要的实际工程应用价值。本文针对不平衡数据分类问题进行研究与
论文部分内容阅读
近十年来,不平衡数据分类算法已成为机器学习领域的重要研究方向之一。在不平衡数据分类问题中,由于各类之间的样本数据量极度不平衡,少数类样本容易被多数类样本吞噬,造成分类器模型在分类时无法有效识别少数类。在现实生活中,不平衡数据分类应用范围广泛,如网络入侵检测、银行欺诈监测、机器故障诊断等。因此,研究如何提高分类算法对不平衡数据的分类性能具有重要的实际工程应用价值。本文针对不平衡数据分类问题进行研究与分析,在掌握现有最新不平衡数据分类方法的基础上,从数据层面中欠采样和过采样方法出发,同时结合集成学习对实际问题提出针对性的解决方案,以提高不平衡数据分类算法模型的应用价值,具体工作如下:(1)针对传统分类器模型难以对气温等级中的极端气温进行准确预测问题,提出一种基于密度峰值的聚类欠采样集成分类算法。首先,利用Pearson系数相关法选取气温预测因子,同时根据气象学知识建立江苏区域化气温等级划分表;其次,对由密度峰值算法在多数类样本上快速聚类生成的多个簇中心按照采样率进行欠采样,降低数据的不平衡性;最后,将平衡后的数据带入以BP神经网络为基分类器的自适应增强模型,通过改变样本权值分布来提高该算法模型对于不平衡数据的分类性能。在选取的七个站台的历史逐日气象数据集上进行实验验证,与其他三种传统算法相比,本文提出的算法可以有效识别极端气温等级。(2)针对软件缺陷预测中的过采样方法存在样本重叠及合成样本的错分价值不高问题,提出一种基于距离权值的聚类过采样集成分类算法。首先,基于AGNES算法自底向上聚合策略的思想,对各个少数类子簇进行层次聚类时,筛选是否存在多数类样本,进而生成多个不含多数类样本的少数类子簇;其次,根据各少数类子簇内各样本与其K个最近邻多数类样本的平均欧式距离不同为各个少数类样本分配权值,并根据权值分布对少数类样本进行过采样;最后,将本文提出的基于距离权值的聚类过采样方法和ROS、SMOTE构建随机森林模型,发挥集成模型的整体优势。基于NASA数据集的实验对比结果表明,本文算法模型可以有效改善软件缺陷模块的预测性能。
其他文献
<正> 糖厂榨季结束后,容器设备要进行防锈。一般是用大量的水清洗,洗去残留糖份,有的采用在设备上涂油(如涂抹花生油脚)以防锈。但涂抹操作劳动强度大,且要有一定的技术要求
当三个终止密码子UAA、UAG和UGA中的任何一个进入核糖体的A位点时,蛋白质翻译终止发生。在使用标准遗传密码子的生物中,真核生物第一类肽链释放因子(eukaryotic polypeptide
可视化是一种将数据转换成图形图像的表示形式并可进行交互处理的技术,是刻画数据特征,展示数据关联的一种重要手段。矢量场数据作为科学可视化领域的代表性数据,如何提取数
船舶运输在国民经济中具有重要的作用。大约80%的船舶采用以柴油机为主推进的动力装置。然而,国内外因船舶动力装置发生故障而引起的恶性事故仍时有发生,造成巨大的经济损失
校本课程是中学课程的重要组成部分,由于中学化学课程的特殊性和农村地域的广泛性,农村中学化学校本课程具有很高的开发研究价值。笔者结合本市域的研究,从该课程的课程目标、课
【研究背景】肾综合征出血热(Hemorrhagic fever with renal syndrome,HFRS),是一种急性病毒性传染病,全球90%的HFRS病例发生在我国,该病来势凶猛,变化较快,病死率较高,一直
本文以太原市小学组加入女运动员参赛的利弊分析为研究对象,以太原市青少年校园足球的管理者,太原市狄村小学、董茹中心小学、太原十三中女队、太原六十七中女队、太师四附小
新形势下不断提高行政事业单位财会队伍建设是适应社会发展的需要。当前经济发展进入新常态,作为经济管理工作的重要组成部分和财政财务工作的重要基础,会计改革面临繁重而艰
食用玫瑰种植产业在云南的发展前景十分广阔,据云南省农业厅数据显示,2012年至今,我省食用玫瑰的种植面积已由1.2万亩增长至5万余亩,经济效益每年接近3亿元。每年在食用玫瑰采摘结束后都要对玫瑰植株地表50cm以上的枝条进行修剪,从而达到来年更新复壮、加强株势的目的,但是由于云南位于云贵高原,田间环境复杂多变且食用玫瑰种植密集、枝条缠连的现象严重,现有的修剪机械无法有效的对食用玫瑰进行剪枝作业。本文
打赢脱贫攻坚战全面消除绝对贫困,是我国当前的重大政治任务和第一民生工程,现阶段我国正处在全面建成小康社会的关键时期,也是脱贫攻坚的决战决胜时期。在脱贫攻坚实践中,扶贫对象内生动力缺乏逐渐成为致贫返贫的重要因素,同时也是脱贫攻坚的重点难点问题。实践证明,过去的救济式、输血式等扶贫手段已经不能完全适应贫困地区的脱贫攻坚需要,思想政治教育以及科学文化建设才是打赢脱贫攻坚战的决定性因素。我们必须清楚地认识