基于边界混合重采样的非平衡数据分类方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:beehall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。
其他文献
随着现代科学技术的发展,人类社会也飞速地向前发展着,人们在享受丰富的物质生活时,内心的精神世界却逐渐变得空虚。一些青少年也出现了精神空虚、感情冷漠、道德失衡、价值
文章以渝利铁路黄草山滑坡治理工程为研究对象,介绍了滑坡体的地形地貌、地质构造、地层岩性、气象和水文;采用传递系数法的计算方法,对黄草山滑坡进行了稳定分析,得出在路基和隧
为了确保基督宗教美学的宗教性,托马斯·阿奎那开辟了一条理解基督宗教美学的新道路,亦即在论证“美”的过程中,既不介入神学论题,也不借用神学方法,而仅仅是在哲学的语境中,以
在简要介绍统一潮流控制器(UPFC)结构及其工作原理的基础上,提出了一种应用于UPFC串联侧的基于模糊控制理论的PI自整定控制策略,给出了该控制策略的模糊控制规则以及模糊查询表
目的:探讨老年癌症患者抑郁情绪发生情况及其相关因素,以便有效预防、及时发现和解决老年癌症患者的心理问豚。方法:采用SDS量表对110例患者进行问卷调查,问卷包括SDS量表和患者
以1987、1996和2007年3期Landsat-5TM遥感影像解译的土地利用/覆盖类型数据为基础,结合实地取样,建立经验模型估算敦煌市地表生物量,并分直接使用价值和间接使用价值2大类估
品德课新课改以来,回归生活的道德教育已经成为理论界的共识,随着新课改的不断深入,生活德育资源开发成为摆在我们面前不可回避的问题。在生活德育资源开发过程中,教师作为生
网络作为反映社会舆论的主要载体之一,其引发的舆情问题愈发突出.网络论坛(BBS)是网络舆情的重要数据来源.如何从BBS贴文中捕捉各地域的焦点问题、考察各话题热度的地理分布,
学生在学习过程中出现错误是在所难免的。作为教师,不能害怕学生犯错误,更不能忽视甚至掩盖学生在学习中出现的错误,而应正视这些"学习错误",开发学生的"错误资源",有效利用
针对我国相关标准和技术规范在医疗废物焚烧处置中的问题,以控制二噁英、燃烧效果、残渣处置为关键目标,从二噁英控制机理、工况设计、设备选择和残渣处置等焚烧的关键环节进