论文部分内容阅读
非均衡数据集的分类是数据挖掘的任务之一,通常传统分类方法应用于非均衡数据集会带来少数类分类精度的下降等问题,而非均衡数据集的预处理和分类器的优化可以较好地提高少数类的分类精度。国家助学贷款的违约风险管理涉及到非均衡数据集的分类问题,有效预防和控制违约风险的发生始终是这个领域关注的重点。本文围绕非均衡数据集分类问题及其在助学贷款风险分类中的应用做了如下工作:对分类问题的研究现状进行了综述。重点分析非均衡数据集分类所面临的困境及当前国内外在这一领域研究的主要方向,同时对比了国内外非均衡分类技术在学生贷款风险管理分类及个人信用评估中的主要差异。指出我国在学生贷款信用风险管理定量研究方面的不足和制约因素。围绕非均衡数据集分类的两个主要研究方向:数据集的预处理和分类算法的优化开展了研究工作。分析了SMOTE重取样技术的特点和不足之处,受封装式属性选择思想的启发,提出了基于封装式的少数类重取样技术(Wrapper Synthetic Minority Over-sampling Technique, Wrapper-SMOTE)来解决非均衡数据集的分类问题,通过UCI数据集的实验验证,该数据预处理方法与SMOTE方法相比进一步提高了少数类分类的效率。改进了标准粒子群算法,提出基于遗传选择策略的粒子群算法(Genetic Selection Strategy Particle Swarm Optimization, GSSPSO)。利用粒子群的寻优特性,用改进的粒子群来优化支持向量机分类器的参数。重点把支持向量机的损失参数C和权重参数Weight作为一个二维的粒子K(c,w),用GSSPSO进行优化并找到最佳适应值,促使支持向量机优化模型尽快找到面向非均衡数据不同类别错分代价的合理权重,使得分类超平面尽可能偏向于少数类。实验证明优化过的分类器提高了分类模型对少数类样本数据的拟合程度,使分类的精度得到提高。探索了我国助学贷款违约风险管理的定量研究方法。以武汉地区10所不同类别的高校2001年至2008年贷款学生的57836个数据为样本,这些数据覆盖从高职高专学生到研究生、涉及106个专业。分别把基于封装式的少数类重取样算法和改进粒子群优化支持向量机的分类模型这两种定量方法用应于国家助学贷款违约风险分类,实验结果证明这两种方法提高了分类效率。论文的研究成果可有效帮助高校和银行加强其对可能违约贷款学生的信用评价和跟踪管理,从而降低银行助学贷款违约率;同时,研究成果也有助于促进我国学生助学贷款政策的健康和可持续发展。