论文部分内容阅读
随着互联网技术的高速发展,我们正从信息时代步入数据时代,数据量的增长速度呈现几何式趋势。现在比较流行的网络服务,如:淘宝、微信、微博、证券等,每天都会产生数以万计的数据。对于互联网产生的这些数据,都包含了大量与用户相关的行为数据,挖掘隐藏在数据背后的价值信息,可以帮助企业更好的了解市场和决策提供有效的支持。本文主要是通过网络爬虫挖掘出用户的行为数据,然后通过这些数据进行分析和构建用户征信预测模型。 传统的用户征信预测都是依靠专家经验模型或者经验丰富的专业人士主观判断得出相对应的结论,其专家经验模型的处理方式也是在单机上进行。然而,面对越来越多的数据,申请人数逐渐增加的情况下,业务办理效率的劣势逐渐体现出来,这些问题需要研发人员提供有科学依据的模型和计算方式弥补这些劣势。分布式平台的出现刚好解决了这些问题。使得在海量数据的情况下仍然可以快速的处理和运用这些数据,而不是在单机中消耗更多的时间进行处理。 本文研究的主要工作是在某公司提供API接口的情况下,运用网络爬虫技术对该公司2016年的订单信息表和用户详细信息表进行爬取,把爬取出来的数据经过数据清洗等操作后,得到比较清晰的数据样式,然后对这些数据进行统计分析,发现用户下单规律,从而可以优化企业的系统服务架构和升级销售策略。并且,在此基础上,构建了用户征信预测模型,该模型选用了随机森林分类算法,有20个输入变量,训练集有20万条数据,这些数据都是与用户相关联的信息。把训练出来的模型运用分布式系统中,通过准确率和处理数据时间效率进行实验说明,并且用逾期率来说明模型效果。实验结果表明,本文基于Spark构建的用户征信预测模型研究,在提高数据处理速度的基础上,保证了准确率并且降低了逾期率,结果表面说明该平台系统具有可扩展性。