基于改进SMOTE非均衡支持向量机的建模与应用

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:bad_47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是机器学习算法中的一种经典分类方法,具有分类性能好,训练速度快的优点,尤其在非线性分类场景下有较优异的表现。支持向量机以严格的数学推导和坚实的统计学方法为理论基础,现已被广泛得应用于工业生产,入侵检测,医学鉴定,用户推荐,管理评价,决策系统,金融征信,生物科学等领域。同时,伴随社会经济发展,个人征信也逐步被提升至越发重要的位置。随着数据挖掘技术不断更新,基于大数据的机器学习方法也逐步替代了人工筛选的方法,在征信行业中扮演着越来越重要的角色。但是,随着技术水平发展,数据采集、存储的成本迅速下降,分类问题中的数据复杂性伴随数据量的急剧提升也在不断增加,如数据维度不断增高、数据均衡度越发像单边倾斜,这些改变对分类问题带来了越来越多得挑战。对于支持向量机而言,这些问题严重影响了经典分类器在特定场景下的分类性能。为了应对数据量提升、实用场景更为复杂带来的这些问题,就需要根据支持向量机的内在特性,充分考虑非均衡数据、指标复杂性等给分类结果带来的影响,从影响分类性能的根因出发,进而才可能对经典支持向量机有针对性地进行改进,在延续支持向量机的严格的理论基础支撑的前提下,进一步提升其应用价值。本文系统地研究了经典支持向量机的相关理论及其性质,针对处理支持向量机中的数据非均衡问题与解决方案建模和具体实现方法分别进行了讨论,并提出具有自适应特性、对非均衡数据有良好抗性的改进支持向量机算法,并以小额贷款公司客户信用风险评估为实际应用案例,经测试,本文方法提高了潜在违约客户的分类精度。本文的主要研究内容如下:(1)研究模糊情况下SVM分类器的建模与应用,研究了基于区间数的SVM分类器;针对样本中带有区间数的情况,提出了基于超立方体定点采样的采样方法;给出利用二叉树对区间数样本进行采样的算法。(2)分析了传统SMOTE算法在处理非均衡数据时不考虑样本本身含义的弊端,并会对整个少数类样本进行操作的问题,在SMOTE对少数类样本进行插值的基础上,提出基于关键指标优选的改进过采样方法;利用区间数SVM的分类特性,改善新合成样本的分布情况;最后给出了非均衡数据下的改进SMOTE支持向量机的完整模型与算法流程。(3)分析了在使用改进SMOTE过程中设置关键指标和相关参数对分类结果的影响,提出基于信息增益的优化的SOMTE支持向量机算法。首先建立基于信息增益的超立方体顶点采样SMOTE支持向量机,再通过优化算法对改进后的SMOTE-SVM模型的参数进行自动寻优;进而增强了算法参数设置的合理性,提升了分类性能,并给出组合算法的具体流程。(4)研究了小额贷款公司在信用风险评估方面所面临的实际问题,分析了其在对客户信用评估时的劣势;依据小额贷款公司经营实际构建了信用风险评估指标体系;将本文提出的改进支持向量机算法应用到实际问题,并与其他经典分类算法进行了分类综合性能比对,并从关键指标出发,分析了客户违约的关键指标下分布情况,最后根据两类用户的典型特征进行了用户画像。
其他文献
<正>在国外医学独立实验室的发展,如美国、欧洲、日本等发达国家的医学独立实验室,已成为这个行业的国际先行者,分析、借鉴他们的发展历程与服务模式,有助于我们紧跟行业发展
会议
近年来,太阳能因其可再生、易开发等优点得到规模化发展,光伏发电成为当今可再生能源领域的研究热点。然而,光伏发电出力其固有的间歇性和波动性给电力系统的调度决策和可靠运行带来挑战。准确的光伏出力预测可以帮助调度部门制定科学合理的决策计划,降低系统备用和运行成本,提高光伏电站并网接入水平。针对光伏出力的特性,本文分析了光伏出力的特性和影响光伏出力的气象因素。基于实测光伏电站出力及气象数据,采用线形图法和
目的:以不同取代基的4-取代羟吲哚烯烃与硫叶立德为原料,合成一系列具备相邻季碳中心的多官能团螺环氧化吲哚化合物。此外,通过该合成策略实现螺-环丙基氧化吲哚与螺环二氢呋喃氧化吲哚之间的化学选择性调控,进一步丰富螺环氧化吲哚类化合物的分子库。方法:利用硫叶立德化学介导的[2+1]与[4+1]环化反应,合成一系列具有相邻季碳中心的螺环氧化吲哚类化合物,并通过选择不同N-保护基实现螺-环丙基氧化吲哚与螺环
随着全球化的发展,英语语言能力对于当代学生的进步和发展以及未来的工作生活越来越重要。这也对学校的英语教学能力提出了更大的挑战。宏观上讲,过去的英语教学,教师在课堂
分层EGR技术可灵活控制缸内氧气浓度的空间分布,通过合理控制缸内氧浓度及其分布形式,能够在不引起微粒排放增加的前提下降低NOx排放。同时,大量研究表明,使用含氧燃料可以大幅降低柴油机碳烟排放。因此,本文利用不同分子结构的含氧燃料与缸内氧浓度分布形式相结合,试验研究含氧燃料(燃料氧)与缸内氧浓度分层(环境氧)复合作用机制对压燃式发动机稳态及瞬态工况下燃烧和排放物生成的影响规律,揭示缸内活化分层对燃烧
目的研究逆转录酶的运动性和生理功能的关系,以及N-乙酰基-β-芳基-1,2-二脱氢乙胺类衍生化合物与其的分子识别,方法采用高斯网络模型和各向异性网络模型研究了p66和p66-DNA
模块化多电平换流器(Modular Multilevel Converter,MMC)在高压直流输电系统、柔性交流输电系统、电力传动等领域具有很好的发展前景,在学术界和工程界得到广泛关注,本文对模
学科"核心素养"已经得到重视和较为深入的研究,化学学科从不同的维度对学科核心素养提出了不同的模型和看法,其中比较得到认可的是宏观辨识与微观探析、变化观念与平衡思想、证
聚甲醛(POM)具有高耐磨性、耐腐蚀性等优异特性,在众多领域得到广泛应用。然而纯POM具有耐光热稳定性差和力学性能不足等缺点。因此本课题选用母粒法制备长效耐候POM复合材料
信息化建设对于医联体的形成与运转具有非常重要的作用,笔者围绕医联体模式下信息化建设与发展进行了探讨,首先介绍了医联体模式下的信息化,然后分析了医联体模式下的信息化