基于数据挖掘技术的销量预测模型的增强算法及比较研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mmxxmm333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能算法的兴起和广泛应用,越来越多的商业企业开始重视将自己的业务与大数据、人工智能等技术相结合,期待利用新兴技术改善公司的运营流程,提升公司的业绩,促进企业的发展。而对大数据和人工智能等技术的应用和研发也逐渐成为当今企业运营管理的重要环节。在企业的运营管理中,销量预测是至关重要的一环,合理的销量预测能根据历史数据准确地预测企业未来的业绩,为企业的经营决策提供重要的依据。针对销量预测问题,我们广泛参阅了国内外的相关研究文献,并结合已有经验设计了自己的研究方案:我们研究了树集成模型中的XGBoost、LightGBM和随机森林算法,分析了各自的特点,并致力于对单个模型和混合模型进行算法的增强提升,然后从理论上对比各算法的优劣,并通过销量预测实验从预测准确率和模型训练时间两方面探究和提升算法模型的性能。我们采用Kaggle网站的销量预测比赛Rossmann Store Sales的数据集进行建模实验。首先对原始数据进行了分析,并进行了相应的预处理和特征构建。然后详细对比分析了XGBoost、LightGBM和随机森林等算法的特点,提出了由结果校正和多模型组合构成的算法增强策略。最后利用Python3.6对三种算法和增强算法进行了建模实验。结果表明,在单一算法模型中,XGBoost模型的预测准确率最高,而LightGBM和随机森林模型的训练时间更快,随机森林模型预测准确率最低。增强策略中的结果校正能极大提升模型的预测准确率,并且简单快捷,能实现秒级响应。在结果校正的基础上再运用模型组合的增强策略则能进一步提高模型的预测准确率。在组合模型中,包含了XGBoost,LightGBM和随机森林三种不同算法的多算法组合模型比单一算法的组合模型预测准确率更高。多算法组合模型的训练时间比XGBoost组合模型训练时间短。这说明我们提出的多模型组合策略从预测准确率和模型训练时间两方面提升了算法的性能。
其他文献
嘧啶类衍生物是一类十分重要的六元杂环化合物,广泛存在于药物和生物活性物质中。其典型代表是5-硝基嘧啶,不但自身有生物活性,还可以作为核苷类药物和嘌呤类活性物质的关键
连多硫酸盐是一类不稳定的还原性硫氧中间物,具有相似的分子结构、物理性质和化学反应性。连六硫酸盐(S6O62-)是能够单独分离出来硫链最长的连多硫酸盐,本文利用高效液相色谱
传媒产业与电信业、互联网、消费电子业之间的融合是最具代表性的产业融合。本文针对产业融合背景下的传媒产业技术、产品、业务和市场的变化特征,阐述了媒介品牌有助于媒介
本文依据X-射线谱与等温磁化曲线和等磁场变温磁化曲线,主要研究了Tb3NiSi2合金相结构与磁性相变和磁热性能。X-射线衍射谱表明,采用800℃保温14天,然后炉冷至室温的热处理方
目的:以隐匿性冠心病患者病灶多发与单发代表病灶体积大小来分析隐匿性冠心病患者病灶体积对心肌舒缩功能的影响。探究核素心肌血流灌注显像和平衡门控法心血池显像在隐匿性
石墨烯纳米材料具有优异的导电性、力学性能和热学性能,在电池、超级电容器、光催化、传感器等领域都有着广泛的应用,但是它也存在结构单一、性质单一、分散性差等局限性,发
根据福建宁化牙梳山自然保护区森林生态系统的特征和森林生态系统服务功能的内涵,采用物质量和价值量相结合的评价方法,使用市场价值法、影子工程价格法、生产成本法、机会成
网球,作为一项动作精细、激烈的对抗、多变的战术而被受到世界范围内球迷的广泛喜爱,因而亦称为世界第二大球类运动。作为隔网对抗型运动,其各项技术中,掌握击球稳定性的程度
随着信息技术的发展,各行各业的数据呈爆炸式产生.在这种形势下,如何快速有效地从数据的海洋中挖掘出有价值的信息和知识,就成为了各行各业所要解决的重要问题之一.而不平衡数据因其在实际生活中十分常见,成为了专家和学者们的研究热点和方向之一.本文以UCI上的信用卡客户违约数据集为例,该数据集正常客户(0类)样本数量为23364,违约客户(1类)样本数量为6636,类别比约为3.5:1.如果直接用分类方法R
锂离子电池使用领域的不断扩大和人们对便携式电子产品的迅猛需求量,推动了高功率密度、高能量密度、长使用寿命、价格低廉和环境友好的新型锂离子电极材料的不断研发。然而