不平衡数据的研究及应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:serene_he
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,各行各业的数据呈爆炸式产生.在这种形势下,如何快速有效地从数据的海洋中挖掘出有价值的信息和知识,就成为了各行各业所要解决的重要问题之一.而不平衡数据因其在实际生活中十分常见,成为了专家和学者们的研究热点和方向之一.本文以UCI上的信用卡客户违约数据集为例,该数据集正常客户(0类)样本数量为23364,违约客户(1类)样本数量为6636,类别比约为3.5:1.如果直接用分类方法RF对原始数据建模的话,AUC值为0.7195,违约客户的召回率仅0.34,所以本文通过不平衡数据的方法处理数据,在保证综合评价指标AUC高的基础上提高违约客户的召回率.研究内容如下:(1)数据预处理,包括缺失值和异常值检验,特征衍生,标准化,连续数据离散化,根据每个特征不同类别的样本分布和随机森林特征排序选取特征等;(2)数据层面选择最优方法,采样法包括欠采样、过采样、混合采样,欠采样又可分为基本的欠采样、基于聚类的欠采样(本文借鉴了CUSBoost算法),混合采样法有SMOTEENN、SMOTE+Tomek links方法.本文尝试以上五种方法,分别建立随机森林模型,其中SMOTEENN方法效果最好,AUC值为0.7458,召回率0.60;(3)算法层面选择最优方法,基于SMOTEENN方法,建立LR、SVM、RF、XGBoost、LightGBM模型,并根据经验和网格搜索调整各个模型参数,对比模型效果,发现最优模型是基于SMOTEENN方法的LightGBM算法,AUC值为0.7815,召回率0.70.和最初的效果相比,AUC值提高了0.062,违约客户的召回率提高了0.36.
其他文献
语句韵律结构信息在语音合成与语音识别中非常重要。在语音合成中,自然度与可懂度是两个重要的指标,当前可懂度已经达标,但是自然度还是不够,这是因为计算机无法准确的对语句
第一部分冠状动脉CTA辐射剂量蒙特卡洛软件计算及仿真体模验证目的:蒙特卡洛(Monte Carlo)数学模型软件是一种新型的评价辐射剂量的方法。本实验对比研究应用蒙特卡洛(Monte
嘧啶类衍生物是一类十分重要的六元杂环化合物,广泛存在于药物和生物活性物质中。其典型代表是5-硝基嘧啶,不但自身有生物活性,还可以作为核苷类药物和嘌呤类活性物质的关键
连多硫酸盐是一类不稳定的还原性硫氧中间物,具有相似的分子结构、物理性质和化学反应性。连六硫酸盐(S6O62-)是能够单独分离出来硫链最长的连多硫酸盐,本文利用高效液相色谱
传媒产业与电信业、互联网、消费电子业之间的融合是最具代表性的产业融合。本文针对产业融合背景下的传媒产业技术、产品、业务和市场的变化特征,阐述了媒介品牌有助于媒介
本文依据X-射线谱与等温磁化曲线和等磁场变温磁化曲线,主要研究了Tb3NiSi2合金相结构与磁性相变和磁热性能。X-射线衍射谱表明,采用800℃保温14天,然后炉冷至室温的热处理方
目的:以隐匿性冠心病患者病灶多发与单发代表病灶体积大小来分析隐匿性冠心病患者病灶体积对心肌舒缩功能的影响。探究核素心肌血流灌注显像和平衡门控法心血池显像在隐匿性
石墨烯纳米材料具有优异的导电性、力学性能和热学性能,在电池、超级电容器、光催化、传感器等领域都有着广泛的应用,但是它也存在结构单一、性质单一、分散性差等局限性,发
根据福建宁化牙梳山自然保护区森林生态系统的特征和森林生态系统服务功能的内涵,采用物质量和价值量相结合的评价方法,使用市场价值法、影子工程价格法、生产成本法、机会成
网球,作为一项动作精细、激烈的对抗、多变的战术而被受到世界范围内球迷的广泛喜爱,因而亦称为世界第二大球类运动。作为隔网对抗型运动,其各项技术中,掌握击球稳定性的程度