基于集成树模型增强算法的车辆销量预测研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:hanyushan10601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和人工智能算法的广泛应用,一些汽车企业进行销量预测,为企业发展提供重要决策依据。在学习其他学者的研究成果基础上,本文提出了一种基于数据挖掘技术的集成树模型增强算法的车辆销量预测模型,旨在提高车辆销量的预测准确率。俗话说“工欲善其事,必先利其器”,机器学习模型的准确率是变化的,但是我们的训练数据里所隐藏的信息却是不变的,变化的只是挖掘数据深层次信息的能力。因此本文的第一个重点是特征工程的处理,训练数据为乘用车的销量相关数据,首先对初始数据进行了一个初步的探索,从年份、月份、省份、车型、车身类型几个方面探索了乘用车销量情况,观察其周期性、强相关、异常点等特征,判断销量的大致变化趋势。接着是数据处理与特征构造,在这一部分,本文首先根据实验数据和模型特性采用label-encoding来对数据进行编码;然后在特征构造部分,本文从节假日月份特征、历史销量特征、趋势特征、销量历史的统计特征四个方面来构造模型的输入特征,在此阶段共构造了70个特征;但由于特征的贡献率不同,为了提高模型预测准确率及效率,因此我们在建模之后采用了树模型特征重要性这一指标来对初始特征进行筛选,最后选择了64个特征作为本文模型的输入特征。在数据挖掘算法建模部分,本文主要使用了随机森林算法和LightGBM算法,接着对这两个算法进行比较分析。本文分析了算法各自的原理及特点,通过销量预测实验从预测准确率方面提升算法模型的性能。因此本文提出了基于集成树模型增强算法的乘用车销量预测方案,该方案包括两个部分:基于增强算法的单模型乘用车销量预测和基于增强算法的RF-LightGBM模型融合乘用车销量预测。本文建模策略的完整流程有两次模型增强过程,首先是单模型的增强策略,我们分别选择随机森林、LightGBM模型作为基准模型进行五次建模实验,并且每次的数据集是根据原始数据重新划分采样,最后将所有的预测结果综合得出最终预测值。接着RF-LightGBM模型通过将随机森林的增强模型预测值作为新的特征加入到LightGBM的特征子集中进行模型融合的增强预测从而提升最终的模型预测准确率。从单模型到两个模型的增强预测,优化好每一级的建模环节,带来优秀的整体建模效果。实验结果表明,在单模型增强算法实验中,LightGBM模型的预测准确率最高。在进行模型组合预测之后,我们模型的预测准确率得到了很大的提高,RF-LightGBM增强模型预测结果明显优于LightGBM增强模型的预测结果,这说明我们提出的基于集成树模型增强算法的车辆销量预测方案从预测准确率方面有效地提升了算法的性能。
其他文献
信息抽取是指从文本中抽取有效信息的系统,主要包括实体抽取、实体关系抽取和事件抽取等,信息抽取模型效果的好坏直接影响阅读理解、自动问答、机器翻译等下游自然语言处理任务的性能,因此信息抽取任务作为自然语言处理的一项关键任务逐渐成为研究热点。本文主要探究命名实体识别和事件检测两个基本任务。在神经网络广泛应用于自然语言处理任务之前,命名实体识别和事件检测任务多采用基于统计机器学习的方法,但此类方法严重依赖
学位
全社会用电量是衡量地区经济发展一个重要指标,是“克强指数”重要组成部分。能否精准预测全社会用电量,是检验一个电力企业是否进入现代化的标准之一。精准的预测社会用电量模型不但可以为电力供应企业提供决策支持,还能减少由于过量发电带来的电力消耗。在对全社会用电量的影响因素进行分析时,根据选取影响社会用电量的因素,使用随机森林进行变量重要性排序。选取日平均气温、发电量、水泥产量、对外贸易出口额、房地产投资值
学位
随着美国政治经济环境的不断变动,美国货币政策和贸易政策的不确定性也随之增大。由于美国和美元在全球经济中占据主导地位,美国货币政策和贸易政策的不确定性对全球货币和金融市场的溢出效应明显。因此,探究美国货币政策和贸易政策的不确定性对人民币汇率的影响,进而预测未来汇率的趋势非常重要。通过预测未来汇率,不仅能够预防汇率风险,也可以为制定国家货币政策提供参考。本文分析了美国货币政策和贸易政策不确定性对人民币
学位
随着互联网的飞速发展和智能手机的普及,互联网用户规模日益扩大,其数量呈指数级增长,互联网企业也从电子商务、社交等单一行业开始跨行触及多个传统领域,在线教育便是其中之一。从2012年开始,国内的在线教育行业逐渐进入较快的黄金发展时期,在线教育平台也凭借其自身的便捷性、可重复性和针对性,越来越受到学生和家长的认可,导致各大平台用户数量的激增,也为行业带来了大量的用户行为数据。然而,在拥有如此大的用户基
学位
随着互联网技术的飞速发展,以微博和推特为代表的网络社交媒体平台成为群众获取信息、创作内容和分享观点的主要场所,同时平台便捷内容创作与高速信息传播的优势也成为谣言生成与传播的沃土。社交媒体中的谣言往往以制造噱头获取流量为目的,以杜撰的文字与篡改的图片吸引用户注意,通常带有情绪煽动性与恶意性,严重破坏网络空间秩序。特别是2020年疫情防控攻坚时刻,却有诸如“北京封城”、“钟南山院士感染”等谣言不断,误
学位
在经济全球化的今天,金融市场的平稳发展成为各国宏观经济平稳运行的重要风向标之一,能反映一个国家的经济增长速度和整体经济健康状况。但是在全球经济一体化迅猛发展的同时,金融风险在不同金融市场间的扩散速度加快、传导机制也更多元化。A股纳入MSCI新兴市场指数作为中国证券市场国际化的重要一步,在这一事件下对金融市场间的波动溢出效应的研究具有理论和现实研究意义。因此,本文对这一事件下,中国内地股市与香港股市
学位
瓦斯是以甲烷为主要成分的井下有毒有害气体的总称,因其特殊的理化性质而对生产活动具有严重危害性。国内外学者已经开展了一些关于瓦斯涌出和突出危害以及瓦斯含量预测的研究,在这些研究中,对于煤矿、化工等高危行业的研究较为成熟,在地铁施工行业的研究目前开展的比较少。随着我国进入城镇化的高速增长期,中大型城市的人口聚集效应速度加快,城市人口迅速增加,导致城市的公共交通压力加大。轨道交通作为城市中重要的公共交通
学位
随着国内基金市场逐渐放开,人们对于投资保值和增值的需求愈发旺盛,国内基金规模和基金品种也相应得到快速发展。伴随着第一批公募FOF基金在2017年9月获得上市批准,越来越多的FOF产品出现在资本市场上。但在众多公募FOF产品之中,能够为投资者赚取理想收益的产品并不多。基于这种现状,如何通过基金优选、资产配置来有效构建公募FOF资产组合进而获取更稳健的投资收益,成为基金管理公司及相关机构亟需解决的一个
学位
随着信息技术的发展和国家政策的大力支持,在线课程如雨后春笋一般纷纷上线。在线课程打破了时间和空间上的限制,方便学习者随时随地开展学习,但同时面对数量巨大的课程,也给学习者带来选择上的问题。大量的在线评论是学习者选择课程时的重要参考依据,本文研究的内容就是基于在线评论对待选课程进行质量排序,以帮助学习者选择符合自己要求的课程。在线评论反映出学习者学习课程的感受,学习者可以对该门课程表示赞赏也可以发泄
学位
雾天易诱发高速公路交通事故。浓雾天气下,我国最常采取封路这一高速公路管控措施,这不仅会带来巨大经济损失,还迫使车辆行驶于道路条件更差的普通公路,并未真正确保交通安全。近年来,间断放行管理措施逐渐受到关注。但是,间断放行时,如何确保行车安全仍是高速公路雾天交通管理面临的一个难题。为给雾天交通管理措施的制定提供参考,本文从交通系统的角度,紧密结合雾天交通特性,选取风险错觉、模仿行为等雾天特定驾驶行为,
学位