数据挖掘在智能手机销售数据中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:foranjay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机作为目前人们使用最多的电子设备,一方面既承担着网络购物的终端作用,另一方面,本身也是消费人群最多的商品之一,现在社会几乎是人手一部。目前来看,手机还同时有逐渐取代传统钱包以及银行卡的趋势。每年都有大量的各式各样的手机通过线上渠道或者实体店被销售出去,然而不同的手机商品销量却是大不相同,这其中影响手机销量的因素有哪些呢?这是销售手机的商家十分关注的问题,也正是本文要研究的问题。本文首先简单介绍了网络爬虫,利用网络爬虫从某大型电商网站爬取所有在架销售手机的详细信息,包括各种参数配置信息以及销量,评论数等等,其次对数据进行清洗,提取各种字段用于后续建模分析。通过特征信息度以及Spearman相关系数对影响手机销量水平的因素进行了相关分析。为了预测一款特定手机商品的销量水平情况,根据数据的特点,文中分别利用决策树算法,Bagging算法,随机森林算法三种机器学习方法进行建模分析,并利用交叉验证以及网格搜索选取随机森林模型最优的超参数。最后对各种算法的结果进行比较发现,基于决策树的集成算法随机森林算法要优于其它两种算法。当选取合适的超参数后,随机森林算法的结果明显好于使用其默认参数的结果,并且当变量减少时,随机森林算法依然能够保持较高的精度和AUC值。
其他文献
<正>随着信息技术的飞速发展,信息安全已经成为国家安全和国防安全的核心要素。近年来发生的"维基解密""棱镜门""朝鲜断网"等事件以及军内外一系列网络泄密事件,充分反映了信
《汉穆拉比法典》被公认为世界上迄今发现并完整保存的最早的一部成文法典,研究法典的源起、体系架构、历史地位及其影响等,对于揭示两河流域法的发展、演变轨迹以及探究整个
目的:非痴呆型血管性认知障碍(Vascular cognitive impairment with no dementia,VCIND)是血管性痴呆(Vascular dementia,VaD)的早期阶段。然而,至今为止,国内外尚未形成VCIND统一的诊断标准。这项研究通过纵向观察VCIND患者的执行功能变化,为早期预测痴呆症的发生提供依据。方法:本次试验筛选了自2017年9月至2018年9月在河
一带一路作为传承和创新古丝绸之路的经济战略,其对于缩小亚太经济圈进而扩充到欧洲大陆圈具有重要意义。在新经济常态下,电子商务与经济一样都需要扩张,而一带一路战略必将
目的研究分析在肿瘤病理的临床诊断中,采用特殊染色联合免疫组化技术进行诊断的价值效果以及检测阳性率评价。方法随机选择我院在2018年4月-2019年4月期间接纳的76名肿瘤患者
信息时代移动技术的进步推动了当代英语口语课教学学习方式变革,英语口语课程模式亟待创新。前人对英语口语课程研究内部没有从整体把握到口语课程设计框架,该文结合信息时代
对外汉语教材在教学过程中占有非常重要的地位,同时对外汉语教材的开发也逐渐成为教学界关注的重点,但因为学生水平和课堂教学情况各有不同,所以很难有一本教材满足所有学习
动力电池作为储能最佳的载体之一,是否具备商业价值成为影响储能产业发展的重要因素’往对国内外储能产业发展现状分析的基础上,应用系统动力学理论从发电侧、电网侧和用户侧以
光镊是一种利用光束和粒子产生的相互作用力来实现非接触式操控粒子的新型技术,在化学、生物学以及物理学等领域中有着非常广泛的应用。常规的光镊技术是利用辐射压力和梯度力对透光性强、折射率高的粒子进行捕获,比如生物细胞、生物大分子以及胶体粒子等。近几年里基于光泳力原理的光镊技术逐渐获得研究者们的重视。这种光镊技术通常用于对吸收性粒子(不透明粒子)的捕获,比如空气中的粉尘颗粒、金属颗粒、石墨片和其他新型吸光
由于噪声和衰减的影响,地震数据不平稳,即地震信号的频谱从浅到深是逐渐变化的。为了研究地震数据的非平稳性质,基于基追踪谱分解方法进行高分辨率时频分解,通过点谱模拟提取