基于改进SMOTE算法的不平衡数据集处理方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:whf19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,各式各样的信息数据给人们带来不同的有用信息,其中不平衡数据集内所蕴含的有用信息逐渐被人们挖掘和使用,不平衡数据集内部数据分布严重不平衡且其中的有用信息大概率都只占有相对较少的数量,但其中的少数类事件的发生对其所属的领域有着很重要的使用价值,由于少数类样本的稀少性,需要研发人员投入更多的精力去分析和挖掘其中的有用信息。在众多对不平衡数据集的采样算法中,SMOTE算法的提出有效的解决了以往处理数据采样方法的随机性,消除了因随机复制增加少数类样本点带来的过拟合现象。该算法的提出为处理不平衡数据集提供了有力的指导思想,但其本身也存在着一定的局限性,SMOTE算法在随机选取一个少数类样本点后,要求找到其k个近邻点,但是算法并没有明确的指出该如何确定k的数值,故只能根据所得到的数据集进行测试,来得到k的最优解,这种做法使k值得选择存在盲目性,也浪费研究人员的时间资源。在找到近邻点生成新样本点时,根据其在边界的样本点生成新样本点时,会使新样本点越来越边缘化,渐渐的就会模糊样本的正负类边界,也会影响原有的数据分布。本文具体工作如下:首先,针对SMOTE算法存在的问题进行了理论分析,在之前学者提出Boderline-SMOTE算法的基础上在对算法加以改进,结合K-means聚类算法提出KB-SMOTE算法。新算法对数据集采样操作前,先对少数类进行聚类处理,聚类结束后对对各个簇进行判断,根据Boderline-SMOTE算法判断各个样本点的条件将各个簇分布到其相应的所属集合中:噪音簇集合、边界簇集合、安全簇集合。得到各个簇的集合后,只对边界簇集合中的所有簇进行新样本点的生成,去除边界簇内的多数类样本,根据新的插值公式生成新的样本点。这一方法既有效的解决的SMOTE算法在确定其k近邻的盲目性,也解决了数据集分类边界模糊的问题。在簇内进行新样本点的生成也减小了对原始数据分布的影响。其次,为了验证新算法的有效性,选取一个信用卡欺诈检测的数据集,将该数据集分别采用:使用原始数据集、随机下采样方法处理数据集、SMOTE算法处理数据集、KB-SMOTE算法处理数据集,将通过以上几种方法得到的数据集分别对逻辑回归模型进行训练,采用5折交叉验证和设置正则化惩罚项来对模型进行优化。最后,将测试集的依次通过上述方法训练的逻辑回归模型中去,通过对模型分类性能的比较和分析,证实了KB-SMOTE算法的有效性。
其他文献
光通信技术的出现不仅提高了信息传递的效率,改变了人类的生活方式,更极大的促进了世界的发展与进步。在此技术领域中,以二十世纪八十年代诞生的掺铒石英光纤放大器(Erbium Doped Fiber Amplifier,EDFA)为代表的全光放大技术解决了在远距离传输中由于光信号衰减损耗而对光通信网络传输中的速率的问题与距离的限制。随着网络通信需求呈指数性增长对数据传输的要求也在不断提高。如何实现更大容
深紫外光电探测器是光电探测技术领域中的研究热点,在紫外制导、紫外预警、空间通信、航空航天和紫外天文学等领域具有重要的应用价值和迫切需求。作为新型超宽禁带半导体材料,六方氮化硼(h BN,禁带宽度约为6.0 e V)由于具有极佳的热稳定性和化学稳定性、非常大的吸收系数(7×105 cm-1)、极高的介电强度(8 MV/cm)等优点,因而是制作深紫外光电探测器的优选材料之一。目前,h BN深紫外光电探
钙钛矿纳米材料由于强的光致发光能力,巨大的振子强度和较小的非辐射复合损失等优异的物理性质,而且钙钛矿材料制备工艺简单,生产成本低,适用于大面积生产,使得钙钛矿材料在现代显示照明领域有着十分广阔的应用前景。未来的显示照明设备将朝着柔性透明便携的方向发展,因此研究适用于钙钛矿光电子器件的新型电极具有重要的意义。我们提出了采用叠层结构的复合电极取代传统导电材料应用于钙钛矿电致发光器件,期望提升器件的性能
网络借贷是指网络借贷平台通过互联网技术,在线上撮合出借人和借款人达成借贷交易。自2007年我国第一家网贷公司成立以来,网贷行业在我国迅猛发展,已成长为又一个亿万级的市场。网贷行业的兴起,一方面为普通民众拓宽了投资渠道;另一方面助力于小微企业、实体经济的发展。与此同时,网贷行业乱象丛生的现象日趋严重:网贷平台暴雷、跑路等问题频发,普通投资者苦不堪言。因此,对我国网贷行业的重拳监管势在必行。本文以网贷
股利分配是公司利益交织的核心,是公司股东、债权人、管理者等相关方博弈和对抗的目标。近年来,控股股东滥用控制权侵害中小股东股利分配权的案件时有发生,中小股东常常在没
我国南方酸性低钙土壤资源丰富,花生是该区域主要的经济作物与油料作物之一。为筛选适宜在酸性低钙土壤生长、荚果饱满的种质资源,在酸性低钙土壤上采用大田试验研究了施钙和不施钙处理对来自全国105个花生资源主要农艺性状的影响。以花生植株性状、农艺性状、产量指标的平均值和耐低钙系数为基础,进行了相关的统计与分析,用相关分析和主成分分析筛选花生耐低钙性鉴定指标,用综合评判法和聚类分析对耐低钙性进行综合评价,筛
微液点喷射的研究和发展已经有了很多年的历史,随着计算机、通信、消费类电子产品向微型化、集成化与便携式快速发展,电子制造过程中涉及到的微液点喷射工艺越来越多,对微液点喷射技术在微小性、精量性、均匀性与可靠性等方面的要求也越来越高,由此形成了多种形式、多个门类的微液点喷射的专门技术与设备。对于微液点喷射技术而言,该技术无需Z轴运动,与工件不接触,可以在极小的缝隙内作业,具有喷射精度高、速度快、一致性好
为明确三个新选育水稻两用核不育系的农艺性状、不育起点温度、异交特性和稻米品质配合力等性状,本研究以目前生产上大面积应用的两用核不育系C815S为对照,对新育成的不育系阳S、浩S和166S的特征特性进行分析,利用这三个不育系为母本,与五山丝苗、E33、粤农丝苗、华占等四个恢复系进行不完全双列杂交,分析其稻米品质性状配合力,主要结果如下:(1)长沙5月初播种,阳S与对照C815S的播始历期相当,株型紧
近年来,随着中国自身国力的发展和国际地位的提高,中国承担着越来越多的国际责任,为解决发展问题,中国向非洲提供了大量的经济援助,然而西方媒体却对此类援助持有很深的成见,认为中国对非进行经济援助是为了追求自身的利益而枉顾非洲国家的发展,因此对常常对其进行抨击和指责。本文对中国对非经济援助的模式、机制和历史进行研究和阐述,旨在批驳西方媒体提出的“资源掠夺论”、“债务陷阱论”等等论调,此类国际成见多是空穴
改革开放以来,迅速发展的市场经济对我国的商事制度提出了新的要求和挑战,我国当前的商事制度已难以满足市场经济的发展需求。基于此,我国于2013年拉开了商事制度改革的序幕