论文部分内容阅读
随着改革开放的不断发展,深圳和香港两地在文化和经济等多方面的交流日益深化,在交流不断深化的过程中,也存在着交通拥堵、水客走私和游客服务质量下降等诸多潜在的问题。本文基于Hadoop大数据平台,结合数据处理技术建立统一时空标准的数据库,从时间轴分析不同时段的口岸客流量,从空间轴分析不同人群的运动轨迹,通过时空数据挖掘技术,定量分析获取不同时段、不同人群在口岸区域的活动特征和规律,挖掘不同人群的出行行为模式,从而为优化城市智能交通管理、提高口岸运行效率和提高游客出行体验等方面提供相关的决策依据。本文的主要研究工作有以下几个方面:(1)利用数据预处理技术完成公共交通数据的数据融合,并结合时空挖掘技术对口岸客流进行人群划分和模式分析。依托大数据平台去除车辆GPS数据漂移点,利用预处理后的数据分析客流时空特征,并提取相应特征基于层次聚类算法对口岸客流进行人群划分和模式分析。针对层次聚类在大数据量时运行效率缓慢的问题,提出先基于密度聚类再进行层次聚类的解决方法,并在进行密度聚类时一次合并多个相似点以提高算法效率。(2)利用抓取的香港基站数据和POI信息点(Point of Interest,即“兴趣点)为地区建立标签,并利用通信数据分析游客的时空轨迹。利用地图标签分类方法将Google地图抓取到的香港POI数据划分为16个类别,并结合基站数据和相关公式对基站所在位置贴标签,另外利用一次性手机卡和基站信息融合后的数据从不同维度分别分析游客的时空运动轨迹。(3)结合聚类算法对游客出行目的地偏好进行细分。结合16类分类标签,建立游客各类标签出行时长消耗的特征向量,经过加权和降维,利用k-means聚类算法实现游客出行目的地偏好的划分,其中为避免局部最优解而提出基于密度优化选取初始聚类中心的改进算法,通过计算每个数据点的局部密度和该点到具有更高局部密度的点的距离,选择处于高密度的点作为初始聚类中心。之后根据商圈划分利用关联规则算法发现各大商圈之间的联系。本文通过多源数据分析深港口岸人群的活动特征和规律,对优化城市交通配置和提高游客服务质量等方面有一定的指导意义。