基于概率过抽样的非平衡数据分类方法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:dzxt720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据分类问题是数据挖掘领域重要的研究方向之一。在非平衡分类问题中由于数据的不平衡性使得分类器对少数类数据的识别较为困难,易导致建立的模型对此类数据产生欠拟合,而少数类数据通常是研究者所关注的重点。处理非平衡分类问题可以通过过抽样方法合成新的少数类数据对原始数据进行平衡。过抽样方法大多通过简单复制原少数类数据或利用样本之间特征空间相似性来合成新数据,新产生的数据未考虑原始数据概率分布,容易产生虚假数据。而通过概率近似数据分布抽样合成少数类新样本的方法考虑数据原始概率分布,新合成的数据不仅反映数据真实规律而且具有很好的代表性。本文从数据层面和算法层面相结合的角度提出两种基于概率过抽样的非平衡数据分类方法:基于k-means和多数投票策略的概率过抽样方法。将原始多数类数据利用k-means算法进行聚类,将聚成类的多数类数据与原始少数类数据合并形成非平衡数据子集,降低数据集的整体非平衡率。通过概率过抽样方法近似数据子集少数类数据概率分布,从近似的数据分布中重抽样合成新的少数类数据。最后获得平衡的子数据集,在子数据集上建立模型得出决策矩阵,通过多数投票策略来获得数据类标签。实验分别以C4.5和Bayes分类器建立模型,通过15个KEEL非平衡数据集将本文提出的基于k-means和多数投票策略的概率过抽样方法与SMOTE,SMOTEBoost,RUSBoost和RACOG四个重抽样方法进行对比,实验表明本文提出的方法在评价指标Sensitivity,G-mean和AUC上均获得了较好的平均分类性能。基于过滤的概率过抽样方法。利用非合作博弈理论为概率过抽样合成的少数类数据决定其最可能的类标签,将数据中的非本类合成数据进行过滤,得到更高质量的少数类数据进而改善数据倾斜状况,重新平衡原始数据集。实验分别以CART和SVM分类器建立模型,将本文提出的基于过滤的概率过抽样方法PDFOS+F和RACOG+F与原始概率过抽样方法分别在8个KEEL非平衡数据集上进行对比,实验表明本文提出的PDFOS+F和RACOG+F方法在评价指标F-measure,G-mean和AUC上获得了更好的分类性能。
其他文献
海洋环境是一种高温高湿高盐、昼夜温差大、紫外线强的恶劣复杂环境,给传统钢筋混凝土结构的耐久性带来了巨大的威胁,钢筋锈蚀和混凝土锈胀现象将会急剧降低钢筋混凝土结构的服役年限,严重阻碍了海洋工程的发展和大规模建设。玄武岩增强复合材料(BFRP)具有轻质高强耐腐蚀的特性,钢筋具有刚度大延性好的优势,BFRP-钢筋混合配筋混凝土结构结合了BFRP和钢筋的优良性能,同时融合了两者的结构设计方法,为解决海洋环
Summer Breeze是Seals and Crofts组合原创的歌曲,被艾斯里兄弟合唱团、乔治·班森、艾尔·贾诺等诸多组合与歌手翻唱过。在1972年公开时就排在美国Billboard百强单
海港岛以浅粉色、长满珊瑚礁的海岸而闻名。沙滩的颜色来自极其微小、亮粉色的名为有孔虫的微生物,并且沙滩的沙子摸上去总是凉爽宜人,因此你可以光脚在沙滩上散步,而不必担心沙
简支梁桥在高速铁路中占到了极高的比例,其抗震性能值得深入研究。结合西部高速铁路中典型的简支梁桥结构形式,建立不同墩高的高速铁路多跨简支梁桥的全桥空间分析模型,在模
由成都院承担的《南水北调中线穿黄工程盾构隧洞施工动态仿真系统》顺利通过由南水北调中线干线局于2006年12月20日在成都主持召开的该项目验收会的验收。参加会议的有南水北
道德品质是上层建筑的重要组成部分.党员领导干部思想道德建设,作为一种特殊的职业道德建设,对于整个社会道德和精神文明的振兴,起着重要的示范作用.正如江泽民同志讲话所强
21世纪现代医学技术的发展对医学实验技术人员提出了更高的要求,医学实验技术人员只有具备良好的思想素质和职业道德,扎实掌握医学知识及其相关的实验技能才能真正为教学服务
本研究针对国内现行实验诊断学教材中的某些缺陷,从国内著名英文专著或教材中精选了相关内容,通过板书、投影及多媒体手段直接以英文形式将其引入实验诊断学课堂理论教学,对
染料在纺织、造纸等行业广泛应用,会产生大量的染料废水。如果不经处理直接排放就会破坏生态环境,甚至威胁人类健康。因此,研究一种对染料具有很好吸附性和选择性的新型材料
由于勘察阶段勘探和试验工作受限或不够完善,影响到隧道涌水量预测的各主要因素难以准确确定,从而导致隧道设计预测涌水量不准确,施工中突、涌水灾害时有发生,进而严重地影响了隧