论文部分内容阅读
随着大数据和互联网技术的快速发展,从复杂无序的大数据中,给用户推荐用户自身感兴趣的信息,推荐系统已经成为解决信息过载的关键工具。首先根据用户的历史行为的记录,构建相应的特征工程,利用特征工程来进行建模,然后预测未来用户的兴趣,最终推荐相应的物品给用户。但现在推荐还是面对许多困难和挑战,例如如何选择适当的推荐算法来提升正样本(小类样本)预测的准确性,提高用户感兴趣物品的准确度等。为了更好的处理上述问题,研究人员继续开发出更高效的推荐算法。本文的研究主要面对的是在公共交通大数据情况下,乘客与线路之间显性关系信息缺少,隐形关系信息巨大,和同时乘客是否出行问题可以转化为二分类问题,并且乘客未来选择出行的数目远远小于不出行的特点,从而本文主要关注如何构建有效的特征工程和如何解决不平衡分类问题来提升正样本(小类样本)分类准确性。基于以上问题,本文提出了一种基于代价敏感学习和随机梯度提升的算法融合思想,从而使预测乘客是否出行更加准确。首先,采用广州省公共交通数据集,来构建用户乘车习惯相应的特征工程,本文主要从乘客,线路和乘客线路交互三个方向来进行构建特征工程。构建的角度主要从时间,天气,频率等。其次,对新的特征工程进行优化,利用随机森林对特征进行重要性评估,然后将特征变量按照变量重要性降序排序,删除不重要的特征,得到新的特征集,重复上述过程,从而得到模型精度最高时候的特征变量。最后,提出了基于代价敏感学习随机梯度提升算法,从而更好适应不平衡分类数据集,从而能够很好预测乘客未来是否出行。由于基础算法随机提升算法本身就不容易过拟合,泛化能力好,非线性等优点,所以改进的算法就很好的处理本文所构建的特征工程。首先改进的算法在公共不平衡数据集上进行训练,和其他分类算法进行对比,用AUC评价指标对算法模型进行评估。然后再采用广东市乘客刷卡记录数据集,通过多次实验选择合适的参数,分别用随机梯度算法和基于代价敏感学习随机梯度提升算法对数据集进行训练,然后通过评价指标AUC和F1来比较两个算法模型的性能。