论文部分内容阅读
随着城市轨道交通建设投资增加,轨道运营里程显著增加,轨道交通进入网络化运营阶段。网络化运营对路网服务质量和精细化管理要求越来越高。以北京轨道交通为例,轨道交通网络四通八达,应用信息化技术,乘客实现无障碍换乘,提升服务感受。但同时也产生了相关问题,因为票卡非实名且无障碍换乘,所以运营单位难以准确了解乘客出行路径,制约了精细化管理水平进一步提升。
本文在对北京轨道交通7000万条乘客出行数据的预处理中,发现了一些非正常乘车行为,这些非正常乘车行为会对运营安全造成隐患,同时也会在一定程度上影响路网服务水平和企业效益。本文对其中的一种称为“同站进出”异常乘车行为进行了统计。同站进出,即在短时间内,乘客在相同车站刷卡进出。统计获得,北京站同站进出比例约为3.5‰,天通苑站约为7‰;一些客流量较小的车站,比如良乡站,甚至达到了9‰。造成上述异常乘车行为原因是什么?如何有效识别进而加强管理?本文将通过数据进行原因分析,为运营管理单位提供分析方法和模型,并初步提出政策建议。
本文主要工作如下。通过分析北京轨道交通OD(Origin-Destination)数据,基于数据可视化分析与机器学习算法,构建轨道交通同站进出分析模型;运用聚类分析、乘客特征分析与机器学习的方法,在乘客画像验证分析的基础上,识别出有异常行为的人群,为轨道交通管理提供决策参考。具体讲,本研究的主要内容包括五方面:一是在数据分析的基础上,明晰同站进出的概念,并用Python语言设计同站进出的分析算法,进行验证分析。验证结果表明,所研究的算法具有很好的结构性特点,可以分析大规模数据。二是从车站、线路、时间以及乘客等四个维度,分析城市轨道交通乘客同站进出特征。分桶结果发现:与同站进出总量结果不同,同站进出比例较大的车站为景泰站、良乡大学城站等偏远、客流量不大的车站,而且同站进出的时间间隔主要集中在5分钟以内,个别票卡出现了120次同站进出现象。三是对乘客进行追踪分析、时间分布分析,在此基础上研究乘客乘车的行为聚类。四是运用数据可视化技术分析各类别中典型票卡的同站进出习惯,并将其异常行为归结为三类,即“疑似偷盗”行为、“疑似乞讨卖艺”行为与“疑似发小广告”行为,后两种可以称为蹭福利行为。五是进一步讨论异常行为中的“疑似偷盗”行为、“疑似乞讨卖艺”行为和“疑似发小广告”行为等问题,并基于随机森林算法,对异常行为进行分类管理,以便为运营管理单位提供一种可以预测的方法。本文的创新点如下。
(1)提出一种新的密集型数据的分析方法。为了解决轨道交通数据聚类分析过程中两个数据对象相似或相异性问题,引入了相异性度量的概念,数据对象之间的相异度是在轨道交通数据聚类分析之前完成的。一般,用相异度矩阵(或相似度矩阵)来表示其相异度。传统轨道交通数据聚类分析算法还需解决数据密集型计算环境下数据挖掘效率不高、准确度不高的问题。本文提出一种改进的数据密集型计算环境下基于密度的分布式聚类算法(Data-intensive Density Base Distributed Clustering, IDBDC)算法,并引入了开源项目Hadoop下的MapReduce编程模型,结合云计算和数据流聚类技术,将聚类算法整合到MapReduce模型中,使其有效解决数据密集型计算环境下的数据分析挖掘。
(2)异常人群识别方法与画像。对存在异常轨道交通同站进出行为的票卡进行聚类算法与数据可视化分析,分析各类别中典型票卡的同站进出习惯,并根据其异常行为进行分类研究,基于一种改进的数据密集型计算环境下基于密度的分布式聚类算法,将异常行为归结为三类,即“疑似偷盗”行为、“疑似乞讨卖艺”行为与“疑似发小广告”行为。“疑似偷盗”行为一般具有频繁地换乘,随机停留,经常进行短途出行;“疑似乞讨卖艺”行为一般具有每天比较稳定的乞讨路线,且在站时间非常长的行为;“疑似发小广告”行为一般具有固定的派发时间,且是团伙派发的行为。
(3)乘客行为预测与验证。出于管理成本考虑,运营管理单位无法全部一一核实每张票卡的行为特点,即这些票卡究竟是“疑似偷盗”行为、还是“疑似乞讨卖艺”行为、抑或是“疑似发小广告”行为。本文采用学习样本方法,预测各类票卡的行为特点。本文设计了基于随机森林方法的预测分析方法,利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。研究的数据集显示,对于预测行为的描述,基本符合“疑似偷盗”行为、“疑似乞讨卖艺”行为和“疑似发小广告”行为。经过实际抽样测试本文提出的预测模型相对准确,提升乘车异常行为管理准确性和效率。
本文在对北京轨道交通7000万条乘客出行数据的预处理中,发现了一些非正常乘车行为,这些非正常乘车行为会对运营安全造成隐患,同时也会在一定程度上影响路网服务水平和企业效益。本文对其中的一种称为“同站进出”异常乘车行为进行了统计。同站进出,即在短时间内,乘客在相同车站刷卡进出。统计获得,北京站同站进出比例约为3.5‰,天通苑站约为7‰;一些客流量较小的车站,比如良乡站,甚至达到了9‰。造成上述异常乘车行为原因是什么?如何有效识别进而加强管理?本文将通过数据进行原因分析,为运营管理单位提供分析方法和模型,并初步提出政策建议。
本文主要工作如下。通过分析北京轨道交通OD(Origin-Destination)数据,基于数据可视化分析与机器学习算法,构建轨道交通同站进出分析模型;运用聚类分析、乘客特征分析与机器学习的方法,在乘客画像验证分析的基础上,识别出有异常行为的人群,为轨道交通管理提供决策参考。具体讲,本研究的主要内容包括五方面:一是在数据分析的基础上,明晰同站进出的概念,并用Python语言设计同站进出的分析算法,进行验证分析。验证结果表明,所研究的算法具有很好的结构性特点,可以分析大规模数据。二是从车站、线路、时间以及乘客等四个维度,分析城市轨道交通乘客同站进出特征。分桶结果发现:与同站进出总量结果不同,同站进出比例较大的车站为景泰站、良乡大学城站等偏远、客流量不大的车站,而且同站进出的时间间隔主要集中在5分钟以内,个别票卡出现了120次同站进出现象。三是对乘客进行追踪分析、时间分布分析,在此基础上研究乘客乘车的行为聚类。四是运用数据可视化技术分析各类别中典型票卡的同站进出习惯,并将其异常行为归结为三类,即“疑似偷盗”行为、“疑似乞讨卖艺”行为与“疑似发小广告”行为,后两种可以称为蹭福利行为。五是进一步讨论异常行为中的“疑似偷盗”行为、“疑似乞讨卖艺”行为和“疑似发小广告”行为等问题,并基于随机森林算法,对异常行为进行分类管理,以便为运营管理单位提供一种可以预测的方法。本文的创新点如下。
(1)提出一种新的密集型数据的分析方法。为了解决轨道交通数据聚类分析过程中两个数据对象相似或相异性问题,引入了相异性度量的概念,数据对象之间的相异度是在轨道交通数据聚类分析之前完成的。一般,用相异度矩阵(或相似度矩阵)来表示其相异度。传统轨道交通数据聚类分析算法还需解决数据密集型计算环境下数据挖掘效率不高、准确度不高的问题。本文提出一种改进的数据密集型计算环境下基于密度的分布式聚类算法(Data-intensive Density Base Distributed Clustering, IDBDC)算法,并引入了开源项目Hadoop下的MapReduce编程模型,结合云计算和数据流聚类技术,将聚类算法整合到MapReduce模型中,使其有效解决数据密集型计算环境下的数据分析挖掘。
(2)异常人群识别方法与画像。对存在异常轨道交通同站进出行为的票卡进行聚类算法与数据可视化分析,分析各类别中典型票卡的同站进出习惯,并根据其异常行为进行分类研究,基于一种改进的数据密集型计算环境下基于密度的分布式聚类算法,将异常行为归结为三类,即“疑似偷盗”行为、“疑似乞讨卖艺”行为与“疑似发小广告”行为。“疑似偷盗”行为一般具有频繁地换乘,随机停留,经常进行短途出行;“疑似乞讨卖艺”行为一般具有每天比较稳定的乞讨路线,且在站时间非常长的行为;“疑似发小广告”行为一般具有固定的派发时间,且是团伙派发的行为。
(3)乘客行为预测与验证。出于管理成本考虑,运营管理单位无法全部一一核实每张票卡的行为特点,即这些票卡究竟是“疑似偷盗”行为、还是“疑似乞讨卖艺”行为、抑或是“疑似发小广告”行为。本文采用学习样本方法,预测各类票卡的行为特点。本文设计了基于随机森林方法的预测分析方法,利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。研究的数据集显示,对于预测行为的描述,基本符合“疑似偷盗”行为、“疑似乞讨卖艺”行为和“疑似发小广告”行为。经过实际抽样测试本文提出的预测模型相对准确,提升乘车异常行为管理准确性和效率。