论文部分内容阅读
当前,大数据行业发展兴盛,解决了人们生产生活中诸多问题,给人们带来了切实的便利和益处,移动对象轨迹数据挖掘作为数据挖掘领域中的一大分支,以原数据收集便捷且包含信息丰富、挖掘技术成熟等优势,更是受到众多研究者的青睐;而针对当前许多大城市面对的“出行难”问题,人们期望通过挖掘移动对象轨迹数据来解决或减缓此类问题。本文将以出租车轨迹数据为研究对象,通过分析数据并从中发掘乘客和出租车司机的行为模式和特征,构建乘客和出租车司机的推荐模型,从而为乘客推荐快捷的打车方案,为出租车司机推荐合适的经营路线和策略,进而从而减缓“出行难”的问题,本文的主要研究内容和工作如下:(1)考虑到本文轨迹数据的规模较大,本文使用Hadoop分布式系统来实现轨迹数据的存储和处理工作;为了适用于本研究中对空间路网数据的快速索引需求,本文设计了一种路网存储结构,使用线性结构和链表结构分别组织路网数据的横向和纵向两个维度,从而实现快速的空间路网索引;为了加快轨迹点的地图匹配,本文改进了一种基于几何的空间地图匹配算法,以动态候选域来替代之前的固定大小的候选域,从而减小搜索范围,加快匹配的速度,并在该地图匹配算法之上设计了另外一种基于SVM二分类器的地图匹配算法,以匹配点的速度大小和方向、距离路段距离、上个点匹配结果等信息作为输入,预测当前点的匹配路段,取得了良好的效果;本文设计了一种停泊点的提取方法,使用经优化的空间聚类算法OPTICS-扩展网格聚类算法(EGHC)对经营状态发生变化出租车轨迹点进行聚类,并将其通过MapReduce方法并行化,从而快速发现停车热点。最后通过实验验证地图匹配算法的有效性、Hadoop分布式系统的适用性和高效性和停泊点提取算法的准确性和高效性。(2)针对当前大城市面临乘客“打车难”的问题,本文通过挖掘出租车车辆轨迹中的信息,建立乘客打车模型从而减缓城市中打车难题,模型通过将空车等待时间和较近的停泊点作为推荐结果推送给乘客指导其规划自己的出行方式。从分析中发现,在所有打车乘客中,散客占据很大比重,推荐模型将重点关注这类乘客的需求。为描述道路的空车到达情况,使用分段拟合的方法来计算道路上的空车到达率,即单位时间内到达空车数量。考虑到实际生活中,天气状况左右着人们的打车欲望,故引入出行气象指数TMI来描述人们对天气的感受,从而进一步提高推荐模型对于不同天气的适应性和准确性。最后,通过实验来验证推荐的准确性和实时性,以及使用Hadoop分布式计算平台处理轨迹数据的高效性。(3)针对出租车司机在一些时段“寻客难”的问题,本文从出租车轨迹数据中发掘乘客和出租车司机的行为规律,构建出租车司机的推荐模型,模型分为离线和在线两部分,其中离线部分处理原始数据,计算停泊点以及停泊点的出租车需求曲线;在线部分通过获取到相应信息,计算出不同路线的期望等待时间,以最小的期望等待时间作为推荐路线,为出租车推荐合适的经营策略和路线。考虑到天气的影响,使用人体舒适度来作为对天气的描述来细化模型。最后,通过实验验证出租车司机推荐算法的有效性。