论文部分内容阅读
随着我国城市化进程和社会经济快速发展,居民出行活动在时间和空间上也日益复杂多样,对城市交通管理和规划决策提出了更高的要求。然而,传统居民出行调查方式长期存在的如调查组织繁琐、基于主观回忆的数据失真、数据更新周期过长等诸多缺陷,在数据源头上阻碍了交通决策对城市交通运行现状综合把握的需求。随着新一代移动通信技术的发展和大数据时代的到来,基于手机信令数据的交通出行活动信息提取技术受到业内人士广泛关注。借助手机信令大数据的高样本覆盖、较低获取成本和数据动态更新等优势特征,使得城市综合交通治理模式由“经验主义”向“数据驱动”的升级转变成为可能,尤其在突发公共卫生事件中有望在病毒溯源和传播链阻断中发挥重要支撑。然而,已有的基于信令数据的交通出行特征提取技术仍存在技术适用性不足、分析精度评估困难以及关键技术参数敏感性分析缺失等问题有待进一步解决。本文融合了交通、通信和人工智能交叉学科技术,构建了基于手机信令数据的实地采集、挖掘分析和综合评估的闭环校核体系,探索了基于改进聚类算法和基于深度学习模型的两种出行端点识别技术路线,并构建集成仿真平台针对关键技术参数的敏感性进行研究。主要研究要点和成果如下:1)在通信运营商支持下开展多因素场景下实地出行试验设计和多源数据同步采集,采集包括作为研究对象的手机信令数据和作为精度对比评估的出行日志数据和手机传感器数据。出行试验场景设计考虑不同城市区位、不同基站密度和不同出行目的等关键影响因素,力求数据采集样本能够覆盖实际中常见的不同类型个体出行特征,为解决长期以来手机信令数据的研究成果难以评估的问题提供数据支撑。2)本文提出了两种出行端点识别技术路线:一是针对已有研究使用的聚类算法中聚类半径固定导致适用性不足的缺陷,分别提出改进的基于基站密度动态调整聚类半径的凝聚层次聚类(HAC)算法和基于密度的空间聚类(DBSCAN)算法,提取出行端点簇。随后针对尚未解决的不同基站密度场景下聚类半径寻优问题,构建以平均加权时间误差最小为求解目标的适应度函数,利用遗传算法(GA)进行各场景下最优聚类半径求解;二是借鉴人工智能领域技术理论,从运动特征、密度特征和距离特征三方面选取特征属性,提出构建基于双向长短期记忆网络(Bi-LSTM)的出行状态分类模型,结合实证数据以五折交叉验证方法优化参数和训练模型,提取出行端点簇。随后,针对由于通信扰动造成的聚类结果中端点震荡问题,本文提出以疑似震荡序列代替现有的以固定时间窗口作为检测单位的端点震荡修正算法,较好地解决了现有研究中因震荡序列中间簇持续时间过长导致难以被检出的缺陷,对端点识别结果中的多识别问题做进一步优化。基于实证数据结果表明,本文提出的基于聚类半径动态选择机制的聚类算法的出行端点识别正确率比当前既有的技术方法高约6-9%,证明了本文提出的聚类流程改进的有效性;同时,本文提出的基于Bi-LSTM模型的出行端点识别效果进一步优于前文提出的改进的聚类算法,证明了作为深度学习模型的Bi-LSTM在理论上的优越性。然而在实际复杂的技术应用条件下,由于训练Bi-LSTM模型对信令数据完整性和算力硬件配置的高要求,本文提出的两种技术路线在理论先进性和工程适用性上具有各自的优势。最终,本文利用提出的两种技术路线分别对工作、居家和其他非通勤三类出行目的的出行端点和出行时间信息进行识别,并统计识别比例、出行时间和端点位置识别误差相关技术评价指标,分析了基于两种改进聚类算法和Bi-LSTM模型的技术流程相对更合适的应用场景。3)本文构建了耦合通信信号仿真与交通仿真的集成仿真框架。借助现有交通仿真软件VISSIM进行个体出行模式配置,生成与现实出行行为相符的个体出行轨迹数据。然后根据真实移动通信网络布局和参数配置,利用信号仿真中WINNER II路径损耗模型,以信噪比最大为准则判断仿真个体所在位置的服务基站。该仿真框架突破交通和通信领域仿真技术专业壁垒,能够生成可控系统状态和参数环境下的手机信令数据,同时避免现有部分通信信号仿真模型中基站小区边界固定或呈正六边形假设的缺陷,为后续综合评估不同技术参数和影响因素的作用效果提供数据支撑。4)本文利用实证与仿真数据首次综合评估不同通信频率、基站密度、通信扰动和数据类型等技术条件下出行端点识别影响效果。通过单因素分析研究随着通信网络演进和通信环境改变过程中技术方法的适用性和主要技术条件参数的敏感性。结果表明:当通信频率由4G高频定位降至2G低频定位时,各出行特征识别精度下降速率逐渐变大,在4G高频定位基础上进一步提高通信频率对识别效果提升幅度有限;当基站密度和通信扰动这两种通信环境因素分别逐渐提高和下降时,出行端点和出行时间识别效果整体也逐渐提升,但分别在多识别率和端点位置识别上出现一定波动;另外,本文验证了技术方法在模拟的新一代移动通信网络可大规模采集的测量报告(MR)定位数据中的适用性,并与信令数据和GPS轨迹数据进行对比,进一步表明当前信令数据的定位频率已基本能够满足出行时间和端点识别的需要,提高手机数据定位精度可以更显著提升识别效果。