改进的类别不平衡学习算法及其分布式研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:lsui321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据是指在样本集中各类样本的数量差异悬殊的数据集,类别不平衡学习算法的目的是提高传统分类器在不平衡数据上的分类性能。而且,在单台机器上难以有效地处理大规模的不平衡数据。本文对类别不平衡学习算法和不平衡大数据分类问题进行了深入研究和改进:(1)针对传统分类器在不平衡数据集上性能降低的问题,提出了 FCMUSIC(Fuzzy C-means clustering Based Under Sampling In Clusters)算法。先使用层次聚类算法确定多数类样本合适的聚类簇数,然后使用模糊C-均值聚类算法将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio,IR)的倒数作为采样率,同时也考虑到类内不平衡现象,通过聚类找出多数类的小析取项样本,并抽样加入到新样本中,保证样本的多样性和代表性。将得到的平衡样本集分别结合KNN和Random Forest分类器进行分类。实验结果显示FCMUSIC算法具有比对比组算法更好的分类表现,验证了 FCMUSIC算法的有效性,FCMUSIC算法与不同的分类器结合都提高了分类器的分类性能,表明该算法具有良好的独立性。(2)本文对CBUS算法进行改进,提出KNN-CBUS算法,利用多数类样本的k近邻样本信息,删除部分多数类样本,扩大分类边界,使得分类超平面更为清晰。同时删除了少数类样本中的部分噪声样本,降低噪声样本对分类器的干扰。在处理后的样本上再运用CBUS算法。实验结果证明KNN-CBUS进一步提高了CBUS算法的F1值、G-mean和AUC值。而且1NN-CBUS算法比2NN-CBUS算法的提升幅度更大。KNN-CBUS算法处理不平衡数据比CBUS算法更具有优势。(3)对于单机执行的分类算法难以有效地处理海量不平衡数据的问题,基于Hadoop平台实现了 PFCMUSIC-RF算法,并行化地对不平衡大数据进行分类。在Hadoop分布式集群上的运行结果表明该算法具有与串行执行时相当的分类性能,在加速比、规模增长性等方面都有较好的表现,能够有效地处理不平衡大数据。
其他文献
目前,钢结构工程设计中,为了简化计算,通常将钢框架的梁柱连接节点以理想铰接或理想刚接为假设条件进行分析计算,从而导致设计偏不安全或过于保守。而事实上,钢框架梁柱节点
风能是一种无污染的可再生能源。目前,蓬勃发展的风电市场已证明了陆上风电大规模商业化开发的实力,而我国1.8万千米的海岸线和约300万平方公里的海洋国土面积同样蕴含着巨量
近几年,随着国家政策的制定,人类对海洋的探索和开发越来越频繁,以满足对海洋资源的日益需求。传统的海洋开发过程大都依靠人工以及各种远程操控水下航行器(ROV)或者自主式水
全球变暖的加剧、化石燃料的枯竭以及成本效益高的制造技术的进步,使可再生能源成为一种可靠的能源。燃料电池、地热、风能、水力、生物质量和太阳能是领先的可再生能源。其
在厅堂音质设计、噪声控制以及声学环境的控制中,都广泛地应用各种吸声材料和吸声结构,吸声系数是吸声材料和吸声结构在不同状况下的应用的重要参数。吸声系数的测量主要包括
近年来,爆炸物不断地威胁着人们的生命财产安全,对爆炸物检测研究越来越得到人们的重视。我们知道,TNT(2,4,6-三硝基甲苯)、DNT(2,4-二硝基甲苯)都是炸药的主要成分,根据有关
在传统化石能源的开采利用面临着储量降低、污染严重等一系列问题的背景下,太阳能凭借着普遍、无害、巨大、长久等特点,成为一种重要的新型能源。由于到达地球的太阳辐射能流
一、脱硝催化剂的失活机理当催化剂运行一段时间后,不可避免地因为各种复杂的物理和化学作用而失活。再加上我国燃煤电厂多燃用劣质煤、运行煤种频繁变化以及燃煤成分复杂的
会议
现代高层建筑为了追求大空间,不再使用截面面积较大的“胖柱”,而是选用承载力及延性均较好的钢-混凝土组合柱。在钢骨-钢管混凝土柱的基础上,本文提出了一种新的钢与混凝土
使用机器人装配电缆等柔性工件是进一步提高生产效率和降低人力成本的关键。许多工业领域已经实现了用机器人自动组装工件。由于像电缆、柔性电路板、密封圈这类柔性工件在受