基于出租车供需关系的大规模出租车轨迹数据挖掘研究

来源 :兰州交通大学 | 被引量 : 11次 | 上传用户:huodong004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着城市人口规模的扩大,人们生活节奏的加快,不断增加了人们对出租车的需求。“打车难”成为城市一大通病,在拥堵路段、上下班高峰时段、重要节假日或是遇上恶劣天气,打车更是难上加难。有研究表明,“打车难”很大程度上是出租车相对供给不足所致,表现在出租车绝对供给满足城市规模对出租车保有量的要求,但出现了出租车空驶率居高不下,而人们又打不到车的奇怪的现象,将这种现象称为出租车供需相对失衡。出租车高空驶率不仅会提高出租车司机的运营成本、减少司机收入,而且会占用道路资源,同时还会加重环境污染和能源浪费。出租车相对供给问题是为了解决特定时间和特定地点出租车供给问题,它的本质是乘客和司机信息不对称,它是微观的、动态的。如何解决出租车供需相对失衡问题,避免出租车因盲目空驶浪费资源,通过有效的方式减少乘客和司机的信息不对称,提高乘客打车效率,这是目前政府亟待解决的问题。现在几乎所有出租车上都装有GPS定位设备,形成了大量的出租车轨迹数据,这些轨迹数据中蕴藏大量有价值的信息。本文旨在将空间分析技术与大数据挖掘技术相结合,研究海量出租车轨迹数据预处理方法和数据挖掘方法,发现轨迹数据中潜在的价值。重点从两方面进行了数据挖掘研究:一是研究利用海量轨迹数据计算出租车空驶率的方法,二是从出租车供需关系角度出发,提取轨迹中空驶点、上车点和下车点三类特征点,对特征点进行热点分析,从而分析出租车供需时空特征。以下是本文主要研究的内容:(1)研究Hadoop核心组件及相关技术基础理论:理解HDFS分布式存储的架构和原理,研究MapReduce并行程序抽象模型、程序运行原理以及MapReduce作业流程。熟悉分布式数据仓库Hive和GIS Tools for Hadoop基本框架。(2)研究海量轨迹数据预处理方法:在总结轨迹数据误差分类的基础上,提出了基于Hadoop的出租车轨迹数据预处理模型,该模型基于Hive实现轨迹错误数据统计分析,编写MapReduce并行程序完成小文件合并和错误数据处理。(3)研究轨迹数据时空特征挖掘方法。研究利用海量轨迹数据计算出租车空驶率的方法。围绕特征点热点分析提出分布式特征点提取核心算法和分布式特征点格网统计算法,研究Getis-Ord Gi*聚类算法,通过实验确定Getis-Ord Gi*热点分析工具参数,利用ArcGIS时态数据可视化表示时空热点数据。(4)实例研究。搭建Hadoop集群,对深圳市13799辆出租车9天的轨迹数据进行数据预处理和时空特征挖掘,计算各时段空驶率,分析空驶率时间分布,通过热点分析得到全天各时段空驶热点、上车热点和下车热点,并对热点进一步分析,包括热点宏观分析、热点分区统计分析和热点叠加分析。实验证明,对大规模出租车轨迹数据进行时空特征挖掘,实时动态获取各时间段空驶热点、上车热点和下车热点,从而分析出租车供给和需求在时间上和空间上的差异,可以有效弥补乘客和司机信息不对称,为研究出租车供需相对失衡提供参考。
其他文献
我国经济快速发展带来了一场快速的土地非农化过程,随之产生了诸如土地供需不平衡、生产建设占用耕地、失地农民增加等各类问题,如何协调经济发展与土地非农化之间的关系,合
建设有中国特色的社会主义,要求我们必须建立一个廉洁高效、取信于民的政府和一支经得起市场经济考验、廉洁勤政的高素质的干部队伍。最近,胡长清、成克杰等人的案件,从反面
树木生长状态,一方面受树木本身遗传因素的影响,另一方面受外界环境条件的影响。正确分析和研究各种立地因子对树木蓄积量的影响规律,建立分布式的蓄积量模型将对指导森林选
本文以景观生态学的基本原理作为理论基础,研究了两个方面的内容:一是景观格局分析,二是区域生态系统健康评价,从而对研究区域的景观格局现状和生态系统健康状况定量的掌握,为当地
学位
随着市场经济活动的日益复杂,原有的地籍应用系统已不能适应当前地籍管理的需要。当前的地籍管理信息系统不能反映宗地的违法利用情况,也不能监督宗地变更过程,更不能解决第二次
学位
2015年度传播交流推广资助项目申报指南是在文化部、财政部及国家艺术基金理事会的领导和指导下,深入学习习近平总书记在文艺工作座谈会上的讲话精神,认真总结分析2014年度艺
期刊
内陆冰川的时空格局变化对全球气候变化和人类生活有重要影响。由于极地冰盖和内陆冰川气候环境恶劣,卫星测高技术是监测极地冰盖和内陆冰川高程变化的有效手段之一。本文利用
空间方向关系是人们描述、表达地理空间必须要面对和研究的基本空间关系之一,其重要性已经在地理空间认知、地图自动综合等许多研究领域得到印证。  空间方向关系描述模型是
季风边缘区的气候对季风的强弱变化非常敏感,也是过去气候变化研究关注的焦点。该区域封闭湖泊的水位变化与湖面涨缩是气候变化的重要指示器。众多学者对这一地区的湖泊波动
土壤侵蚀作为我国耕地面临的主要危害之一,直接关系到耕地质量以及粮食产量。容易造成土壤侵蚀的因子一般为气候降水、土壤质地、地形地貌、植被覆盖等。地表景观的类型、组