基于网络爬虫的用户行为分析

来源 :汕头大学 | 被引量 : 0次 | 上传用户:kyleSun81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,我们正从信息时代步入数据时代,数据量的增长速度呈现几何式趋势。现在比较流行的网络服务,如:淘宝、微信、微博、证券等,每天都会产生数以万计的数据。对于互联网产生的这些数据,都包含了大量与用户相关的行为数据,挖掘隐藏在数据背后的价值信息,可以帮助企业更好的了解市场和决策提供有效的支持。本文主要是通过网络爬虫挖掘出用户的行为数据,然后通过这些数据进行分析和构建用户征信预测模型。  传统的用户征信预测都是依靠专家经验模型或者经验丰富的专业人士主观判断得出相对应的结论,其专家经验模型的处理方式也是在单机上进行。然而,面对越来越多的数据,申请人数逐渐增加的情况下,业务办理效率的劣势逐渐体现出来,这些问题需要研发人员提供有科学依据的模型和计算方式弥补这些劣势。分布式平台的出现刚好解决了这些问题。使得在海量数据的情况下仍然可以快速的处理和运用这些数据,而不是在单机中消耗更多的时间进行处理。  本文研究的主要工作是在某公司提供API接口的情况下,运用网络爬虫技术对该公司2016年的订单信息表和用户详细信息表进行爬取,把爬取出来的数据经过数据清洗等操作后,得到比较清晰的数据样式,然后对这些数据进行统计分析,发现用户下单规律,从而可以优化企业的系统服务架构和升级销售策略。并且,在此基础上,构建了用户征信预测模型,该模型选用了随机森林分类算法,有20个输入变量,训练集有20万条数据,这些数据都是与用户相关联的信息。把训练出来的模型运用分布式系统中,通过准确率和处理数据时间效率进行实验说明,并且用逾期率来说明模型效果。实验结果表明,本文基于Spark构建的用户征信预测模型研究,在提高数据处理速度的基础上,保证了准确率并且降低了逾期率,结果表面说明该平台系统具有可扩展性。
其他文献
Wi-Fi Direct技术是近年新兴的近距离无线通信技术,该技术无需Wi-Fi热点即可实现设备之间的互联互通,既继承了传统Wi-Fi技术性能优势,又可向后兼容现有的大部分Wi-Fi设备,在近距
随着图像处理技术的迅速发展,图像处理被应用到了越来越多的领域。在医学图像处理领域,医学图像去噪对于后续处理过程来说是很重要的一个环节。由于超声成像原理的限制,斑点噪声
汽车在人们生活中扮演着越来越重要的角色,安全畅通的驾驶环境是交通系统的理想状态。交通标识识别是智能交通系统的重要组成部分,它主要包括交通标识的目标定位和目标识别两
心脏疾病是威胁人类健康的常见疾病之一,心电图被用作预防和监测心脏病的手段,在国内外得到了广泛应用。便携式动态心电仪可以长时间持续监测人体心电信号,其低功耗和低成本的硬
近年来,无线传感器网络的发展日新月异,越来越多的机构开始致力于其研究开发与商用的工作中。作为无线传感器网络的典型应用之一,远程环境监测正随着人们对环境问题的日益关注而
自从上世纪80年代以来,移动通信系统历经了1G、2G、3G、以及即将运营的4G发展阶段,呈现了迅猛发展的态势。期间出现了以码分多址(CDMA)、时分多址(TDMA)以及频分多址(FDMA)等
为了适应移动互联网的快速发展,及应对IEEE联盟Wimax技术的挑战,3GPP在发布LTE Rel-8后,启动了LTE-A的标准化工作,引入了协同多点传输技术(Coordinated Multi-Point Transmission
铝电解电容作为分立元件是现代电子工业中不可替代的基本电子元件,而化成箔则是生产铝电解电容的关键材料。电子信息产业的飞速发展使得高质量的化成箔需求量增加。尤其是高
近几十年来,协作通信技术在无线通信领域中得到了广泛的应用。从本质上来讲,协作通信可以被看作一种广义的MIMO概念,它是通过构成虚拟的天线阵列从而使终端用户获得空间分集的协
数据挖掘技术成为近年来的研究热点。KNN Joins问题是数据挖掘中的典型问题,在数据挖掘中的知识发现、空间数据库和数据清洗等领域发挥作用。该问题包含近邻查询与Joins操作两