论文部分内容阅读
随着计算机技术的发展,数字化时代已经到来。以互联网、大数据为代表的这场技术革命正在引领人们加速进入继农业时代、工业时代之后的又一个新的发展阶段—数据时代。世界上百分之九十以上的数据都是近两年产生的,然而庞大数据的背后是如何才能有效利用它们的问题。数据挖掘就是为满足人们对于数据中蕴含信息的充分理解和有效运用而发展起来的一门新兴技术。近几年,伴随着互联网发展起来的还有线上金融服务等新型业务,其中小额贷款以其程序简单、资金灵活、贷款范围广等优势迅速走红,相应的也给贷款机构带来了诸如:贷不贷,贷多少的问题。要处理好这些问题就要尽可能全面的了解贷款客户的各项特征,把握客户动态,及时拟定有效的业务方案。贷款机构在过去的业务实施过程中积累了大量数据,如何利用好这些数据成为解决问题的关键。这里就可以运用数据分析技术,对数据进行分析,及时把握市场动向,优化业务模式。本文就是基于微额速达金融服务公司提供的真实有效数据,详细阐述了数据挖掘在微额借款用户数据集中的应用。具体实施过程是:在R软件中,首先利用sampleO将数据集分为训练集和测试集,然后在训练集上进行模型训练,在测试集上测试模型拟合效果。因为测试集数据结果是已知的,所以可以根据预测值与真实值的比例评价模型好坏。我们这里主要运用了逻辑斯谛回归、K最邻近、决策树和lasso回归进行建模分析,用它们得到的测试错误率依次为:13.8%、10.98%、18.9%、10.5%。期间我们还对logistic回归进行了变量选择,选择后的测试错误率为10.8%,比全模型有所提升。对比这几个模型的测试错误率,lasso回归的效果要稍微好一点。文章不仅对数据挖掘和信用评估的基本理论知识作了介绍,也对信用评估的研究现状做了深刻的分析说明。大数据时代的来临,给企业甚至是政府都带来了很好的发展的契机,然而对数据的有效利用却成为难题。本篇文章就以微额借款用户数据的人品分析为例,向读者展示了如何运用数据挖掘技术对真实的企业数据进行信息发现的过程。文章还对用到的挖掘技术的原理进行了详细介绍,方便读者以后的研究工作。通过运用丰富的客户数据,不断地修改模型参数,优化算法模型,能够在一定程度上降低贷款风险,提高贷款服务质量。文章中的问题处理办法,也给今后的社会发展提供了借鉴:我们可以通过“大数据”和“算法”让商业变得智能,从而为商业决策、企业发展提供好的思路。