不平衡分类的数据采样问题实证研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:cutexsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
获取最为精确的分类效果从来都是机器学习方法所追求的研究目的,大多数的机器学习分类模型,一般都是根据平衡数据所设计的,模型只追求整体的分类性能。在做分类问题的数据挖掘领域,不平衡数据普遍存在,直接训练不平衡的数据集会导致对数据集少数类的预测准确性降低,甚至当数据极度不平衡时,模型会把大部分的少数类都划分为多数类,而不平衡数据中数据量较少的那一类往往是需要重点关注的对象,对少数类的误分会造成不可预估的后果。针对数据的不平衡情况,本文叙述了常用的数据采样方法,细分了欠采样、过采样方法以及混合采样方法的优劣,从数据层面进行分析。本文采用正负样本的比例接近1:11的P2P借贷数据,利用机器学习分类器进行建模。首先对贷款基本情况、用户画像和业务等方面进行可视化分析,发现违约相关性较高的特征属性,给予投资人有效性的建议,谨慎投资,降低违约风险带给客户的损失;再对数据进行数据预处理,删掉缺失比例较大、对整体模型无实际意义的特征,对特征进行有效地填充,删除缺失比例较小的特征相关的样本;通过特征的相关性分析,选择与目标变量相关性较高的特征,提高模型性能上限。选择分类模型,对比不进行处理和进行数据采样方法之间的差距,分析数据欠采样方法、过采样方法和混合采样方法对模型评价指标的影响,对正样本的综合检测能力是否提高,对模型整体的分类性能是否有提高。通过实例验证得出了数据采样可以提高模型综合分类性能的结论,并且一般过采样优于其他两种采样方法。欠采样通过减少了大量多数类样本,丢失了多数类样本信息,降低了模型的分类精准率,当然,过采样在对少数类生成新的少数类样本时,也会有少数类发生过拟合的风险,但在实例中多数过采样方法表现良好,且效果一般优于欠采样和混合采样。因此在选择数据采样平衡训练集数据时,应优先选择过采样方法。最后对比单个逻辑回归分类器和集成的随机森林分类器,发现集成模型优于单个弱分类器,因此结合过采样与随机森林对实例建模分类。
其他文献
互联网技术的发展使传统教育模式逐渐向网络教学模式转变,学习者的情绪作用备受研究者关注,但情绪研究在网络教学系统设计中存在局限性,缺少以用户情绪状态去指导系统设计的
在进入互联网时代以来,有许多的新型概念被提出来,不论是工业上的,商业上的,等等。在新时代的背景下,系统化、自动化、规范化已经成了所有企业、工业的基本特征。虽然目前已
以Ga N、Si C为代表的第三代半导体材料具有宽禁带、高击穿电场、高热导率、高电子饱和速率等特点,但其服役环境较为复杂,这对器件的连接材料及连接可靠性提出了更高的要求。
语义网技术的不断演进和发展,推动了机器对Web数据的智能化理解,并催生了众多的知识图谱。知识图谱以符号化的形式描述现实世界中的实体及其相互关系,结构化地存储着大量描述
球团矿较高的还原膨胀率一直对其入炉比例造成影响,为探究球团矿还原过程中产生恶性膨胀的问题,本论文利用第一性原理计算软件,对铁氧化物还原过程的产物进行晶胞体积的计算,比较不同还原产物的体积变化;采用还原气H_2对纯试剂Fe_2O_3压条进行还原实验,使用PCY-G膨胀仪进行在线检测,通过对比不同还原温度、还原时间和焙烧温度条件下还原产物的外观形貌与显微结构,解释还原反应产生膨胀差异的原因。研究结果表
氢化丁腈橡胶(HNBR)由于具有显著的超弹性、粘弹性和良好的耐油、耐磨、耐压性能等优点,被广泛地应用于密封元件、冲击吸能模块和滚珠轴承垫片等工业场景中。对于高分子材料而言,应力松弛是一种十分普遍的现象,其对应力/应变加速老化过程的影响不可忽略。因此,考虑松弛效应的加速老化实验方法,可以为预测橡胶制品长期服役过程中的性能表现和评估其可靠性提供有效的帮助。为研究应力松弛对HNBR加速老化的影响,本文开
的本质是一个信息抽取与处理过程,然而目前自动文本摘要技术的研究往往基于经验主义与实用主义方法,缺乏利用信息论框架进行有效的分析、指导与改进。本文首先基于Peyrard的
目前商业化主流产品碳基超级电容器存在能量密度低的瓶颈问题,研究表明调控碳电极材料的微观结构和理化性质有助于提高其储能密度,然而,超级电容器能量密度的提升通常伴随着功率特性的降低。本文针对上述问题,开发出一种三维碳超球体新材料,重点探讨了三维碳超球体微结构对双电层建立行为的影响机制,并拓展其在柔性微型固态超级电容器上的应用。具体研究内容如下:1.针对碳电极材料,我们结合原位转化和非原位模板限域组装法
培养拔尖创新人才是建设创新型国家的需要,也是高等学校的历史使命以及自身发展的内在要求。近些年来本硕博贯通式人才培养成为高校推进教育教学改革、培养拔尖创新人才的重
在市场竞争环境中,垄断协议的危害极为严重,因此世界各国是集中力量调查、打击垄断协议,然而,垄断协议与生俱来的隐蔽性特点,加之其参与者为逃避反垄断执法机构的调查而采取