基于大数据的旅行产品销量模型及其应用

来源 :天津商业大学 | 被引量 : 1次 | 上传用户:rights_2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展,一系列基于互联网的销售平台应运而生。网络销售的模式使交易更加快捷,为用户提供了更多的选择,也为商家提供了一个销售的平台,同时也改变了我们获取数据的方式。相较以前,现在我们获取数据的速度更快、量级更大、价值密度更低、形式更复杂。所以要求我们能够具备处理大数据的能力,并且从中挖掘出有价值的信息。基于这一背景,本文通过产品的固有属性和用户的购买行为数据的处理和挖掘,预测未来产品销量以及分析出影响产品销量的主要因素。应用某旅行网站2014年1月到2015年11月旅行产品信息数据和产品销量与价格的真实数据作为训练数据,预测2015年12月到2017年1月各个旅行产品的月销量。首先,观察数据的缺失情况并且根据数据的分布情况选择合适的方法对缺失值进行插补,缺失程度较大的变量进行剔除处理。接下来构建模型的特征工程,对数据集中的变量进行处理,选择重要的变量以及符合业务场景的变量进入特征集,选取以下七个特征:产品的地理特征、日期特征、评分及点评特征、价格特征、节假日特征、月份特征、订单属性特征。然后,把特征集分别代入用XGBoost模型和GBDT模型并且对旅行产品的销量进行预测,同时获取在模型建构过程中重要变量的度量;把XGBoost模型和GBDT模型用线性加权法融合,再次对产品销量进行预测。XGBoost模型的预测值与真实值之间的均方误差更低,预测效果更好,且由于XGBoost模型的并行计算能力,大大提高了模型的预测速度尤其是在数据量较大的情况下。最后,基于模型的预测效果和变量重要性度量,结合实际情况对如何提高旅行产品销量提出了刺激已消费用户点评、提高用户产品评分等建议。
其他文献
目的探讨解脲脲支原体(Uu)、人支原体(Mh)、沙眼衣原体(Ct)与不孕症的关系,并对支原体药敏结果进行分析,以期更好地指导临床治疗,提高不孕症的治愈率。方法选择不孕妇女320例
目的研究碳青霉烯类耐药阴沟肠杆菌的耐药机制。方法收集福建医科大学附属协和医院2011年8月-2012年8月的碳青霉烯类耐药阴沟肠杆菌,采用琼脂稀释法进行药敏试验;改良Hodge试
文章在剖析吉林省特色数字资源建设现状的基础上,提出了对吉林省特色数字资源建设进行统筹规划的设想,并就统筹规划的原则、目标及选题设计进行了详细地论述。
本文从吉林省图书馆联盟的宗旨出发,结合数字服务平台的特点和未来发展趋势,提出了吉林省图书馆联盟网络信息平台建设的原则、功能和平台建设的可行性方案。
1.选用合适的润滑油在夏季,拖拉机的润滑油可选用11号柴机油,以保证润滑油有足够的黏度,减少机件磨损。
南方红壤丘陵区地处亚热带,高强度降雨的侵蚀、淋溶以及剧烈的生物循环等对当地土壤质量影响显著,出现土壤质量退化现象。土壤质量退化导致土壤肥力逐渐下降、土壤结构发生改
文章分析了某咨询公司为目标企业提供战略规划服务的两个实际案例,梳理了企业战略规划阶段竞争情报的需求,构建了企业战略规划阶段产品、竞争环境、竞争对手和竞争优势四个层
"绘事后素"的论断,是儒家在解读《诗经·卫风·硕人》语句之特定情境下推演产生的哲学和美学命题,也涉及到中国画色彩问题。中国画的色彩观与西方绘画有着明显的差异。中国绘
目的探讨小颗粒、超选择行部分脾栓塞术(partial splenic embolization,PSE)治疗肝硬化脾功能亢进患者的疗效。方法回顾性分析2005年3月~2014年12月收治的63例肝硬化脾功能亢
目的探讨气管插管全麻手术后引起医院内呼吸道感染的相关影响因素,为降低医院感染率制定防治策略提供科学的依据。方法采用描述性流行病学和病例对照研究方法,选择近3年气管