基于改进的GBDT算法的乘客出行预测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：sairei

【摘要】

：

随着大数据和互联网技术的快速发展,从复杂无序的大数据中,给用户推荐用户自身感兴趣的信息,推荐系统已经成为解决信息过载的关键工具。首先根据用户的历史行为的记录,构建相

【作者】

：

王天华

【出处】

：

大连理工大学

【发表日期】

：

2016年期

【关键词】

：

推荐预测代价敏感学习随机梯度提升算法决策树不平衡数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据和互联网技术的快速发展,从复杂无序的大数据中,给用户推荐用户自身感兴趣的信息,推荐系统已经成为解决信息过载的关键工具。首先根据用户的历史行为的记录,构建相应的特征工程,利用特征工程来进行建模,然后预测未来用户的兴趣,最终推荐相应的物品给用户。但现在推荐还是面对许多困难和挑战,例如如何选择适当的推荐算法来提升正样本(小类样本)预测的准确性,提高用户感兴趣物品的准确度等。为了更好的处理上述问题,研究人员继续开发出更高效的推荐算法。本文的研究主要面对的是在公共交通大数据情况下,乘客与线路之间显性关系信息缺少,隐形关系信息巨大,和同时乘客是否出行问题可以转化为二分类问题,并且乘客未来选择出行的数目远远小于不出行的特点,从而本文主要关注如何构建有效的特征工程和如何解决不平衡分类问题来提升正样本(小类样本)分类准确性。基于以上问题,本文提出了一种基于代价敏感学习和随机梯度提升的算法融合思想,从而使预测乘客是否出行更加准确。首先,采用广州省公共交通数据集,来构建用户乘车习惯相应的特征工程,本文主要从乘客,线路和乘客线路交互三个方向来进行构建特征工程。构建的角度主要从时间,天气,频率等。其次,对新的特征工程进行优化,利用随机森林对特征进行重要性评估,然后将特征变量按照变量重要性降序排序,删除不重要的特征,得到新的特征集,重复上述过程,从而得到模型精度最高时候的特征变量。最后,提出了基于代价敏感学习随机梯度提升算法,从而更好适应不平衡分类数据集,从而能够很好预测乘客未来是否出行。由于基础算法随机提升算法本身就不容易过拟合,泛化能力好,非线性等优点,所以改进的算法就很好的处理本文所构建的特征工程。首先改进的算法在公共不平衡数据集上进行训练,和其他分类算法进行对比,用AUC评价指标对算法模型进行评估。然后再采用广东市乘客刷卡记录数据集,通过多次实验选择合适的参数,分别用随机梯度算法和基于代价敏感学习随机梯度提升算法对数据集进行训练,然后通过评价指标AUC和F1来比较两个算法模型的性能。

其他文献

自配硼丹蜜膏治疗面部单纯糠疹

期刊

单纯糠疹面部硼丹蜜膏

论我国场景消费金融发展与风险防范

消费金融经历了行业的快速发展,促进了消费需求提升和实体经济发展,场景消费金融也有重大"跃迁",但"无场景依托、无指定用途、无客户群体限定、无抵押"等特征的"现金贷"业务

期刊

场景消费金融金融监管监管沙盒风险管理体系

《当代教育教学论坛》《当代教师风采》征稿启事

期刊

房地产投资信托运营模式研究

我国房地产市场过分依赖银行贷款,因而客观上需要拓宽房地产市场的融资渠道,这为房地产投资信托(REIT)的产生和发展提供了广阔空间。