论文部分内容阅读
随着城市人口的快速增长,道路交通拥堵问题日益严重。智慧交通系统则是未来智慧城市系统不可或缺的一部分。轨道交通以其绿色、便捷、运量大等优点成为智慧交通系统(Intelligent Transportation System,ITS)的重要组成部分。各大城市皆大力发展轨道交通系统,地铁已成为人们出行的重要方式。乘客爆炸式的增长,给复杂地铁系统的有效管理和日常运营带来了巨大的挑战。随着信息技术的发展,地铁客流(Subway Passenger Flow,SPF)出行行为受多源信息交织影响,呈现波动性、随机性、异质性、多源、混频等特征。精确合理的客流预测是及时应对突发客流,制定合理运营组织计划,平衡运量需求和运能供给,调节日常生产运输,提高铁路服务质量,增加铁路部门运营收益,进而提升城市服务和管理水平的关键前提之一。当前,针对各个领域的单一复杂数据源,基于一类将数据信号先分解后集成的技术框架广受关注。对于非线性的SPF数据,先分解地铁客流数据为多个具有明显单一频谱特征的模态分支,再通过对每个分支预测结果的集成而实现精确预测的目的。对于多源数据SPF的预测研究,需要提出一种多变量特征融合的模型。目前,城市轨道交通自动售检票系统(Automatic Fair Collection,AFC)可以自动地获取大量的SPF历史数据信息,同时,互联网的日益普及为我们研究搜索引擎指数创造了有利的环境。这些信息给SPF预测带来了前所未有辅助机遇,有助于我们实现更稳健的SPF预测。随着互联网技术和人工智能技术快速发展,大数据挖掘、机器学习、深度学习等方法呈现出传统模型所不具备的众多优点,其更善于捕捉复杂数据结构的动态变化特性。综上,本文基于多源数据信息特征分析,借助大数据挖掘,机器学习,深度学习,统计分析等不同智能模型的优势,提出合理的理论框架,通过对多种技术模块优化组合,构建一类基于多源数据信息驱动的综合集成地铁短期客流需求预测模型。本文创新地提出融合互联网搜索引擎指数的SPF点预测和区间预测模型。点预测模型框架包括以下几个方面:(1)多源数据特征:对与SPF相关关键词的百度指数(Baidu Search Index,BSI)的收集、降维和统计分析,进而筛选强因果性的百度关键词。(2)多特征数据融合:基于多目标优化的多模态分解技术,将SPF和相关BSI分解成具有单一特征的一簇本征模态函数;进而,为消除统计学上的伪因果关系,对每一簇本征模态函数进行了二次特征提取,从而形成最优特征组合,其作为每一簇的特征输入。(3)模型匹配策略:针对每个最优特征组合的结构和波动性,建立模型匹配机制分配相适应的预测模型。(4)综合集成框架的建立:基于综合集成思想,考虑各模块的优势和系统误差的平衡,提出集成方法,建立综合预测模型。进而,针对高复杂性和不规则数据,作为对点预测精度不够的补充,我们提出了一种新的区间预测方法。通过在一定的置信水平下构造上下界,模型不但可以比点预测提供更多的不确定信息,也解决了已有研究建立在估计点预测结果基础上构造区间预测而造成的误差累计现象。本文提出的基于上下界估计的方法融合了多源数据特征、多目标优化、深度学习等技术优势,预测框架主要集成了以下几个模块:(1)根据2018年中国三大搜索引擎各自的市场份额占比,我们首先加权了百度指数、搜狗指数和360指数得到搜索引擎指数(Search Engine Index,SEI)。为了获取有辅助作用的SEI作为强有力的预测因子,通过统计检验的方法筛选出与SPF存在因果关系的SEI。(2)有效地提取已经筛选预测因子中隐藏的辅助信息,精确的融合匹配策略显得尤为重要。首先,多目标优化的多模态分解技术分解多通道输入的SPF和SEI为具有明显单一特征的本征模态函数矩阵,将矩阵中存在相似周期和频率的模态函数视为一个信息簇,从而形成多簇结构。然后,对每个簇内部的本征模态函数二次抽取来消除因统计学检验而产生的伪因果关系,多簇最佳输入组合的本征模态函数被获取。最终,最佳组合输入到具有适当结构的多目标优化深度学习模型直接预测输出每个簇的上下界。(3)分解技术降低时间序列复杂度,融合匹配策略提高模型的预测精确性,集成技术强化模型板块的泛化能力,基于此,分别叠加每个簇预测的上下界得到最终区间预测结果。最后,北京、上海和广州SPF数据被用来验证所提出模型的最新技术水平的功绩。我们提出模型与设计的基准模型的实验结果表明无论是点预测还是区间预测都取得了精准的预测结果,以北京为例,一步点预测误差MAE=5.3117,MAPE=0.7319%,RMSE=79.7419,R~2=0.9991;区间预测误差PICP=0.9041,PINDE=0.0019,PINAW=0.0768,CWC=0.0768,Ws=-20.5061。因此,本文提出的融合多源互联网搜索引擎指数和多模态分析的SPF预测方法能提供了优异的预测性能,有助于改善轨道交通运营管理和提高运营效率。所提出的技术框架也对处理多源信息,多变量融合提供了技术借鉴。