基于三支决策的不平衡数据采样方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:a3799222999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据是指在数据集中样本数量在类间分布不平衡的一类数据,传统的分类算法在对不平衡数据进行分类时,分类结果更多的倾向于多数类,从而使得对少数类的识别率不尽人意。过采样是解决不平衡数据分类问题的一条有效途径。现有的过采样算法虽然在一定程度上能够提高少数类的识别率,但针对性不强,容易导致新合成的少数类样本影响多数类样本的泛化空间,使得多数类样本的识别率下降,而且容易合成冗余数据。近些年关于三支决策理论的应用研究获得了一定的进展,若将三支决策理论应用到不平衡数据处理方面,有可能是一条解决不平衡数据分类问题的有效途径。受其启发,结合三支决策理论,本文开展了基于三支决策的不平衡数据采样方法研究,主要工作在于:(1)结合邻域粗糙集模型和三支决策模型,提出了基于三支决策的不平衡数据过采样方法(TWD-IDOS)。首先,定义了邻域三支决策模型的相关概念;其次,利用邻域三支决策模型将训练集中的样本划分成正域样本、边界域样本和负域样本;再次,对边界域和负域中的少数类样本分别进行过采样处理;最后,在多个UCI数据集上进行对比实验,并与其他过采样方法、欠采样方法和集成方法进行了比较。实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能够有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中其他算法。(2)结合Spark分布式并行计算框架,提出了基于三支决策的不平衡数据并行过采样算法。首先,利用Spark的RDD进行数据变化,结合邻域三支决策模型并行的对训练集进行划分;其次,对TWD-IDOS算法中提出的边界域采样方法和负域采样方法分别实现并行化。在此基础上,调用WEKA平台的分类算法在UCI数据集和KDDCUP-99数据集上分别验证并行算法的有效性和高效性。通过实验对比,表明并行算法既保持了原算法的有效性,又能大幅度减低采样算法在大规模数据集上的学习时间。最后在运行效率和参数敏感性方面进行了分析。
其他文献
目的 探讨PDHA 1蛋白在人前列腺癌组织中的表达情况,及其与临床病理特征及其预后的关系。方法 随机选取2012年1月至2016年1月期间在本院进行根治性前列腺切除术的60例前列腺癌患者为本次研究对象。所有入组患者接受治疗后,进行为期3年的随访,随访日期截止至2019年1月。将纳入本次研究的60例前列腺癌患者经前列腺癌手术切除后的前列腺组织标本,经多聚甲醛固定后,石蜡包埋。进行PDHA 1蛋白免疫
三维光子晶体具备完全带隙,能够实现对光子在三维立体空间内的控制传输。因此,三维光子晶体可以用来制造光集成器件,并且具有非常重要的地位和作用。本文采用时域有限差分法(
随着科学技术的发展,网络管理理念也在发生着深刻的变化,基于 Web Services 机制,面向服务的 SOA(Service Oriented Architecture,面向服务架构)体系架构的网络管理系统正逐
目的:1.采用高通量RNA测序技术以及生物信息学分析手段,预测5例膀胱癌患者的癌组织与癌旁组织之间显著差异性circRNA谱,通过ceRNAs网络构建,预测并探讨其潜在相关的分子机制。进一步筛选出差异较为明显的hsa_circ_0077837进行后续PCR实验验证。2.通过RT-qPCR技术对hsa_circ_0077837进行检测,以比较癌组织和癌旁组织中其表达水平是否存在差异;进而探索是否与膀
本文以英国社区体育治理为研究对象,以英国伯明翰地区社区体育治理为实证研究对象,运用文献资料法、比较分析法、个案研究法等方法,以治理理论和协同治理理论为基础,以伯明翰地区社区体育治理模式和治理机制为切入点,通过对其治理体系现状及存在问题的分析,总结经验与教训,提出英国社区体育治理对我国社区体育治理的启示,以期为我国社区体育治理理论建设和实践工作提出有价值的参考与借鉴。研究主要结论如下:第一,从国家—
学位
目的:LncRNA(Long non-coding RNA,长链非编码RNA)是一类长度超过200个核苷酸的RNA分子,普遍存在于哺乳动物基因组中。大量Lnc RNA参与基因表达调控、细胞分化以及癌细胞的转移等多种生物学过程。Plnc1是一种新型Lnc RNA,由小鼠过氧化物酶体增殖物激活受体γ2(PPARγ2)基因的上游约25000bp的位置处转录而来,前期基因芯片分析证实,其在小鼠骨髓间充质干
本文将行为金融学中的损失厌恶概念引入到保险公司的投资再保险问题研究中,对在损失厌恶情形下保险公司的最优策略进行了分析。当考虑损失厌恶时,保险公司面对收益时是风险厌恶者,而遭受损失时将转为风险追求者。因此本文采用S型效用函数,并以终端财富期望效用最大化为目标求解保险公司的最优策略。文中假定保险公司的盈余过程服从经典的Cram′er-Lundberg风险模型,可将资产投资于一种无风险资产和一种服从几何
进入二十一世纪,人类社会逐渐从信息时代步入数据时代。随着诸多新业务与新技术的不断涌现,数据业务以爆炸式的速度持续增长,现有的光纤传输资源正被快速消耗。因此,扩展传输
目前我国对建设用地的需求不断增加、耕地保护愈加严格以及生态文明建设的推进,矿山废弃地再利用日益引起社会关注。盘活矿山废弃地、实现矿山复垦耕地价值已成为我国矿业城市缓解建设用地紧张局面、保护生态环境和实现经济社会可持续发展的必然选择。山东省作为我国矿产资源大省,矿业毁损土地面积大,大部分矿区复垦采取典型的土地开发型复垦利用,耕地占主体地位。目前山东省土地开发型矿区复垦耕地利用模式虽较多,但前期投入较
国家大力发展职业教育,办学体系需要改革,结合职业教育特点,根据职业教育确立的目标,完善推动职业教师考核测评制度十分关键。通过考核测评可以激发教师的工作热情,促进教学