基于改进的GBDT算法的乘客出行预测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sairei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和互联网技术的快速发展,从复杂无序的大数据中,给用户推荐用户自身感兴趣的信息,推荐系统已经成为解决信息过载的关键工具。首先根据用户的历史行为的记录,构建相应的特征工程,利用特征工程来进行建模,然后预测未来用户的兴趣,最终推荐相应的物品给用户。但现在推荐还是面对许多困难和挑战,例如如何选择适当的推荐算法来提升正样本(小类样本)预测的准确性,提高用户感兴趣物品的准确度等。为了更好的处理上述问题,研究人员继续开发出更高效的推荐算法。本文的研究主要面对的是在公共交通大数据情况下,乘客与线路之间显性关系信息缺少,隐形关系信息巨大,和同时乘客是否出行问题可以转化为二分类问题,并且乘客未来选择出行的数目远远小于不出行的特点,从而本文主要关注如何构建有效的特征工程和如何解决不平衡分类问题来提升正样本(小类样本)分类准确性。基于以上问题,本文提出了一种基于代价敏感学习和随机梯度提升的算法融合思想,从而使预测乘客是否出行更加准确。首先,采用广州省公共交通数据集,来构建用户乘车习惯相应的特征工程,本文主要从乘客,线路和乘客线路交互三个方向来进行构建特征工程。构建的角度主要从时间,天气,频率等。其次,对新的特征工程进行优化,利用随机森林对特征进行重要性评估,然后将特征变量按照变量重要性降序排序,删除不重要的特征,得到新的特征集,重复上述过程,从而得到模型精度最高时候的特征变量。最后,提出了基于代价敏感学习随机梯度提升算法,从而更好适应不平衡分类数据集,从而能够很好预测乘客未来是否出行。由于基础算法随机提升算法本身就不容易过拟合,泛化能力好,非线性等优点,所以改进的算法就很好的处理本文所构建的特征工程。首先改进的算法在公共不平衡数据集上进行训练,和其他分类算法进行对比,用AUC评价指标对算法模型进行评估。然后再采用广东市乘客刷卡记录数据集,通过多次实验选择合适的参数,分别用随机梯度算法和基于代价敏感学习随机梯度提升算法对数据集进行训练,然后通过评价指标AUC和F1来比较两个算法模型的性能。
其他文献
消费金融经历了行业的快速发展,促进了消费需求提升和实体经济发展,场景消费金融也有重大"跃迁",但"无场景依托、无指定用途、无客户群体限定、无抵押"等特征的"现金贷"业务
期刊
我国房地产市场过分依赖银行贷款,因而客观上需要拓宽房地产市场的融资渠道,这为房地产投资信托(REIT)的产生和发展提供了广阔空间。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
地面辐射供暖设计时应考虑该技术的特点,本文强调并明确了在设计参数、计算方法、材料选择、施工管理等方面要注意的问题.同时说明了该系统运行中按低温的特点进行质调节,避
硒是人体必需的微量元素,但其具有严格的安全使用范围。血液硒含量过少或过多都会对人体健康产生不利影响,只有通过科学有效的方式适量补硒,才能发挥其功效,确保使用安全。
随着我国社会经济的快速发展,各种建筑工程施工项目也在不断的增多,但是由于在建筑工程施工的地质地形条件过于复杂,如果没有进行正确的桩基础施工不仅会导致整个建筑工程的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
日月轮回,斗转星移。金色的阳光,洒满了百花盛开的大地。在举国上下欢欣鼓舞迎接第58个国庆之日,砖瓦行业迎来了中国砖瓦工业协会成立的20周年。20岁的中国砖瓦工业协会,正以矫健