论文部分内容阅读
随着计算机技术的飞速发展,互联网技术的广泛应用,各行各业的数据量都在急剧增长。如何对这些海量的数据进行分析,转化成易理解并有用的知识,成为目前各行各业面临的重要问题。问题的研究促使了数据挖掘技术的产生,它正是从大量数据中获取有价值的、可理解的知识。目前,数据挖掘技术已经被广泛应用到了各个领域中。聚类分析技术是数据挖掘技术的一个重要组成部分,其中基于密度的DBSCAN算法可以从含有噪声的空间数据集中挖掘出任意形状的类簇,在空间数据挖掘领域得到了广泛应用。云计算技术的出现解决了数据挖掘中海量数据的存储和计算。云计算技术将存储和计算能力分布到由多个存储和计算节点组成的集群中,实现了超大数据集的存储和计算。凭借着云计算技术提供的强大存储和计算能力,数据挖掘技术进入了基于云计算的飞速发展时期。城市中的出租车是城市动态性的一种体现,随着无线通信技术的高速发展使得出租车的轨迹记录变得方便快捷。国内出租车大都已经配备了GPS终端,每天会产生大量的轨迹数据,如何从海量轨迹数据中获取对乘客和出租车司机有用的信息已成为研究的热点。首先,本文介绍了云计算技术,分析研究了云计算平台Hadoop下的HDFS分布式文件系统及MapReduce编程模型。在了解了聚类算法并重点深入学习基于密度的DBSCAN算法后,结合MapReduce编程模型,设计了并行化的轨迹聚类算法,然后在Hadoop平台上实现,并在自己搭建的Hadoop平台上进行了时效性验证。然后,在学习和研究了数据挖掘系统相关知识,阅读出租车轨迹挖掘相关资料后,提出了一个基于云计算的出租车轨迹数据挖掘平台,将海量的出租车数据进行分布式存储,提供基于云计算的算法集进行数据挖掘。分别从出租车司机、乘客以及政府的角度出发,分析了挖掘出租车轨迹数据可能为现代城市带来的各类智能服务。最后,通过挖掘大规模出租车轨迹数据,提出出租车载客点推荐应用为出租车司机提供服务。通过对海量轨迹数据进行离线数据挖掘并实现分特征时间段存储,在给定需要服务的出租车司机的地理位置和当前时间后,为其推荐周围的载客热点,帮助其快速找到载客点并最大化收益。基于深圳市13798辆出租车的历史轨迹数据,通过实验对推荐应用进行了相关论证,实现结果表明了推荐应用设计的合理性及实践的可性行。