基于IC卡数据的公交路线聚合算法

来源 :科学导报·科学工程与电力 | 被引量 : 0次 | 上传用户:wallopczp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】公交运行线路的制定需要了解区域内乘客最常用的通勤线路,本文提出了一种基于Apriori算法、DBSCAN算法和模糊支撑树聚类的公交路线聚合算法,可以在已知路网拓扑结构以及区域内客流OD特征的条件下,求解区域内的典型路线。本文基于深圳市公交IC卡数据验证了所提出方法的有效性。
  【关键词】公交路线聚合;典型路线;Apriori算法;DBSCAN算法;模糊支撑树聚类
  1.引言
  随着经济的发展和人口数量的增加,我国一线城市逐渐暴露出公共交通运载能力与出行需求不匹配的问题,交通区域发展出现了不平衡的态势。以深圳市为例,城市内不同的地区职住分离特征愈来愈明显。目前深圳市以福田、南山、罗湖为主要就业地,以宝安、龙华、龙岗为主要居住地,因上班导致的平均通勤距离达到17.9公里。特殊的城市空间结构,给深圳市的城市交通带来大规模潮汐性出行需求。而由于传统的公交网络的布设不符合如今的出行需求总量,导致有效的供给能力不能满足群众多样化、多层次的出行需求,使得有条件的市民倾向于选择个体化出行方式。大量私家车的上路给交通运输网络带来极大的压力,加重了城市道路的拥堵现象,也加剧了空气污染等问题。
  为了应对上述问题,在当今互联网+兴起的大背景下,定制公交的概念被提出。定制公交可以以用户提交的需求数据为主,结合公共交通数据、小区住房数据以及地理信息等多维度数据,通过人工智能、机器学习、聚合算法等各种大数据技术,聚合生成线路,为白领用户提供一人一座,家(住宅区)和公司(办公区)之间直达的定制出行服务。大数据技术的应用有助于公交车线路的高效配置,提高车辆的有效路段里程,进而提高交通运输效率;此外,大数据分析也具有较高预测能力,可降低误报和漏报的概率,可随时针对公共交通的动态性给予实时监控。因此,在驾驶者无法预知交通的拥堵可能性时,大数据亦可帮助用户预先了解。除了提升用户的出行体验,也对缓解交通拥堵有很大价值。
  为了合理地设置定制公交的线路,需要对行人的出行需求进行调查,掌握乘客的出行规律,并从需求中分析典型的出行路线用于制定行车路线。目前,很多研究者致力于研究基于公交IC卡等数据提取出出行需求特征的方法,一般将出行特征表示为OD矩阵的形式,矩阵中各个元素表示所研究区域的两个区块之间的出行需求。然而,如何基于提取的OD矩阵分析挖掘出最典型的车辆行车线路,仍然是需要不断研究的一个问题,目前,大多研究都将这个问题转化为聚类问题,例如K-means聚类等。
  本文提出了一种公交路线聚合算法,在分析得到交通路网拓扑结构的情况下,采用Apriori算法[1]和DBSCAN算法[2]对人们的公共交通出行路线、公交站点、出行时段进行分析归类。随后分析现有公交信息,确定候选典型行车路线,最后根据模糊支撑树聚类算法实现出行路线最优化,本文所提出的算法的流程图如图1。
  2.算法介绍
  2.1 城市道路网络拓扑建模方法
  将城市道路网络的拓扑结构抽象为网络模型,目前主要有两种方法:一种称为为主方法(Primal aproach),是将道路的交叉口抽象为图的节点,连接交叉口之间的路段抽象为边或弧;这种方法的特定是简单直观,保留了较完整的地理相关性,是传统交通网络建模方法,也是目前大部分GIS软件所采用的建模方法。另一种为对偶法(Dual approach),可以认为是主方法的对偶,即将道路抽象为节点,道路与道路的连接关系表示为图的边或弧。一条完整道路的构建是将连续的路段按一定的规则综合而成,目前主要有轴线法、名称法和角度法。其中,轴线法采用轴线代表道路,是依据人的视觉将近似直线的路段合并为一条道路并用一条轴线表示;名称法是指在合并路段时依据道路的名称,将具有相同名称的路段连接在一起;角度法的合并原则是依据格斯塔的连续性原则,通过计算路段与路段的夹角,并根据设定的夹角阈值生成道路。
  实践中这两种建模方法各有特点。主方法直观简单,保留了路网的布局特点;对偶法忽略了地理实体的一些地理意义,如地理位置、道路长宽等,更适合探索网络结构下的功能意义。对偶法中合并路段的几种方法也各有优缺点。例如,轴线法轴线的生成主要依据人的视觉判断,合并规则引入主观因素,因此不同的人可能得到不同的轴线地图,即方法不具有唯一性;名称法的局限性在于合并规则完全依赖属性信息,忽略了空间特性并丧失了直观性,在缺少道路名称信息或信息不准确的情况下无法完成;角度法的合并则完全从图形角度考虑,不受人为因素和属性因素影响。
  2.2 基于Apriori算法和DBSCAN算法的公交路线聚类
  (1)Aprioi算法
  Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我們找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。
  Aprior算法的目标是找到样本中最大K值的K项频繁集,本文采用支持度作为频繁集的判定标准。例如如果找到符合支持度的频繁集AB和ABE,就保留ABE,因为AB是2项频繁集,而ABE是3项频繁集。
  Apriori算法采用了迭代的方法,先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集,得到真正的频繁2项集,以此类推,迭代下去,直到无法找到频繁k+1项集为止,对应的频繁K项集的集合即为算法的输出结果。
  (2)DBSCAN算法
  DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。   DBSCAN的几个概念:
  Ε邻域:给定对象半径为Ε内的区域称为该对象的Ε邻域;
  核心对象:如果给定对象Ε邻域内的样本点数大于等于MinPts,则称该对象为核心对象;
  直接密度可达:对于样本集合D,如果样本点q在p的Ε邻域内,并且p为核心对象,那么对象q从对象p直接密度可达;
  密度可达:对于样本集合D,给定一串样本点p1,p2….pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达;
  密度相连:存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联。
  2.3 基于模糊支撑树聚类算法生成区域内典型行车路线
  区域典型行车路线库由模糊支撑树聚类算法实现。根据OD站点信息利用模糊支撑树聚类算法的程序生成最优定制公交出行路线。最终该区域中各OD间的最优公交出行线路通過聚合构成区域典型行车路线。下面是对模糊支撑树聚类算法的介绍:
  (1)支撑树
  支撑树算法也叫生成树算法,在图论的数学领域中,如果连通图 G的一个子图是一棵包含G 的所有顶点的树,则该子图称为G的生成树(SpanningTree)。生成树是连通图的包含图中的所有顶点的极小连通子图。图的生成树不唯一。从不同的顶点出发进行遍历,可以得到不同的生成树。常用的生成树算法有DFS生成树、BFS生成树、PRIM 最小生成树和Kruskal最小生成树算法。
  (2)模糊支撑树聚类方法
  模糊决策树算法是传统决策树算法的一个扩充和完善,使得决策树学习的应用范围扩大到了能处理不确定性。模糊决策树学习的归纳结果与传统的比较,由于合理地处理了不精确信息,从而有着更强的分类能力及稳健性,使得知识表示的方式更为自然。由于能生成不同水平和不同置信度的推理规则,故而提供了一种构造专家系统的有效途径,并可为决策者提供丰富的决策信息。
  3.实验结果
  本文采用深圳市2012年8月6日至2012年8月10日的全市公交 IC 卡刷卡数据,以及相应时期的车站坐标、线路长度以及站距数据,来验证本文所提出的算法。选用这五天数据的原因为,这五天为连续工作日(周一至周五),并且没有假期。而在此阶段,学生大多已经放假,其中的通勤乘客主要是以上班为主,满足本文的研究对象。
  对该周工作日的地铁刷卡卡数及记录数进行统计,得到表格如下:
  随后统计每张卡的刷卡次数,统计结果如图3:
  通过设置合理的支持度阈值,基于Aprioi算法可以成功地识别乘客的通勤线路
  为了解决共站问题,即有些车站实质上是一个车站,却因为线路不同,有不同的站号;有些车站距离很近,乘客有多种出行选择,而不同车站识别结果却不同;本文采取利用 DBSCAN 算法对站点进行聚类。算法输入的数据为深圳公交车站站距位置表,其中包括了公交、地铁的车站站距以及坐标。全表共有 61136 个不同的车站,将车站标识以及坐标输入算法程序,之后新建字段―新车站标识‖,将算法识别后的结果,每个簇赋新值存入新车站标识中。在运行完算法后,最终得到新车站标识 7264 个。将全部 61136 个站点压缩为 7264个站点,压缩率 11.88%,为解决共站问题起到了很好的效果。
  通勤乘客的出行时段虽然较为规律和固定,但是却又有波动性,尤其是下班时间。一般上班时间是有要求固定的,而下班时间却并不固定,因为会有加班或是下班后有活动的特殊情况。因此,采用时段模糊处理。改进方法后,再次对通勤乘客进行了识别,识别结果如下:
  随后我们基于模糊支撑树聚类生成了区域内的典型行车路线,所得到的结果与我们先验的认知较为相符。
  4.结束语
  本文提出了一种公交路线聚合算法,基于交通路网拓扑结构和出行客流OD特征,采用Apriori算法、DBSCAN算法和模糊支撑树聚类算法分析区域内每位乘客的通勤路线并最终求解了区域内的典型行车路线。本文、基于深圳市公交IC卡刷卡数据对所提出的算法进行了验证,证明了本文提出的算法的有效性。
  基金项目:深圳市科技计划项目(KJYY20160331162313860)
  参考文献:
  [1] Agrawal R,Srikant R.Fast algorithms for mining association rules[M]// Readings in database systems(3rd ed.).Morgan Kaufmann Publishers Inc.1996.
  [2] Ester M,Kriegel H P,Xu X.A density-based algorithm for discovering clusters a density-based algorithm for discovering clusters in large spatial databases with noise[C]// International Conference on Knowledge Discovery & Data Mining.1996.
  (作者单位:深圳市东部公共交通有限公司)
其他文献
【摘 要】本文以1000千伏特高压长治站长南I线串补为基础,通过研究特高压串联电容器补偿装置运维管理模式,提出了串补装置运行及维护基本要求以及运行维护方式和方法,对于指导后续工程特高压串补装置运行维护工作具有极其重要的意义。  【关键词】变电站;串联电容器补偿装置;运维管理  一、1000千伏串补装置设备的特点  采用固定式串補装置,额定电流5080A,额定容量1500Mvar/侧,补偿度为20%
期刊
【摘 要】随着我国经济的高速发展,当前电子信息技术已经逐渐地应用在人们的日常生活中,帮助人们完成各种不同的工作,同时方便了人们日常生活。然而,电子信息技术不仅仅用于人们的生活以及生产中,在通信指挥中也逐渐被应用,并且发挥着其难以被取代的作用。将电子信息技术应用在通信指挥中,不仅仅能够保证我国社会快速,和谐的发展,同时也能够改变以往我国在通信指挥中存在的一些问题,提高了通讯指挥的整体质量以及效率,这
期刊
【摘 要】调速系统在汽轮机组运行中的作用非常重要,而了解消除调速系统缺陷和不安全隐患的措施,对检修和运行人员都相当重要,以下将介绍 660MW汽轮机调速系统的几个常见故障与其解决措施,可为业内人士提供一定的参考价值。  【关键词】火电厂660MW机组;汽轮机调速系统;常见故障;解决方法  1 故障情况分析  根据主汽门工作原理,在机组挂闸后,主汽门油动机油缸的活塞下面油压应该为14.0MPa 左右
期刊
【摘 要】在继电保护装置的研制过程中有一定的技术要求,也就是说继电保护系统中的安全装置必须具有风险控制操作,发生故障后必须进行实际操作以暂时避免故障的威胁,包括设备的可移动部分,这是继电保护及二次回路装置在安全安装时应具有的选择。性特征也是该装置的基本功能。在此基础上,针对继电保护二次回路中存在的问题,需要深入研究,找出防范策略,制定相关方案,以期提高继电保护二次回路的防范能力。  【关键词】继电
期刊
【摘 要】气体绝缘金属封闭开关设备(简称GIS)用SF6气体作为绝缘介质,结构紧凑、占地面积小且检修周期长、运行可靠性高,近年来在国内外的电力系统中得到了广泛应用。随着电网电压等级和系统容量的不断增加,GIS設备的内部故障也随之增多,因此寻找有效的带电检测方法就显得尤为重要和紧迫了。特高频及超声波法是带电检测的两种常见方法。本文主要分析了特高频及超声波法在GIS设备带电检测中的应用策略。  【关键
期刊
【摘 要】本文通过对我国高速铁路(客运专线)电力供电系统损耗和供电质量进行分析,提出补偿装置的合理运用对提高供电质量起到的重要作用。  【关键词】补偿装置;功率因数  1.引言  我国铁路电力供电系统为除列车牵引供电以外的铁路设施供电,统通常采用以电缆为主的形式从地方变电站接引两回路10kV电源,通过铁路配电所向铁路车站、区间的信号、综合用电设备供电。为保证供电安全性与可靠性,解决长距离、轻负荷的
期刊
【摘 要】随着我国供电网络系统不断扩大,对于10kV变电所设备的应用也越来越普遍,因此其设备安装质量的高低将直接决定着供电系统的稳定性,因此一定要注意设备安装技术的把控,提高其安装质量,从而有效保证供电系统的稳定运行。本文针对10kV变电所设备在安装过程中遇到的一些问题进行了简单分析,同时提出相应的技术安装要点,提高安装质量,进而保障十千伏配电网的稳定运行。  【关键词】10kV配电网;变电所设备
期刊
【摘 要】火力发电厂热控仪表自动化主要是指火力发电厂通过电缆将热控仪表(就地测量表计、执行机构等)连接起来而形成的回路,从而达到对发电厂热控制的目的。笔者通过结合发电厂热控仪表的实际运行经验,对于热控仪器的安装技术和在其过程中可能会出现的问题进行了探讨。  【关键词】火力发电厂;热控仪表;解决方案;安装技术  火电厂的热力系统主要有锅炉、汽輪发电机组和和化学补给水等外围辅助系统。为了保证火电厂的安
期刊
【摘 要】本文首先分析了带电放电检测技术在开关柜局部检测中应用的必要性。其次,详细介绍了几种有效的开关柜带电放电检测技术。科学有效的开关柜局部放电在线检测技术,为提高电力系统的稳定性和效率提供了有效保障。通过对这一技术的引进和分析,我们希望能推动当代供电企业朝着更加合理、健康、可持续的方向发展。  【关键词】开关柜;局部;放电带电;电力系统  中图分类号:TM591 文献标识码:A  引言  我们
期刊
【摘 要】低压配电网在电力系统中发挥着至关重要的作用,其贯穿于电力系统的每一个环节,例如发电、输送、配电等每一个步骤都离不开低压配电网的配合。所以说,低压配电网的稳定程度在一定层面上决定着用户的实际使用体验。低压配电网的正常运转需要配电技术的支持,有效可靠的配电技术加之良好的施工手段可以保证低压配电网的整体质量,所以加强对低压配电网运维管理具有十分重要的现实意义。  【关键词】低压配电网;运行维护
期刊