基于hadoop的位置大数据拼车方法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:guanyinchashe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在是一个信息数据爆炸的时代,随着各种移动终端以及互联网、车联网和智慧城市的发展,人们生活中的海量数据信息被记录下来。数据的迅猛增长,从数据的维度为人们提供了新的方式去解读世界,但与此同时海量数据的存储和处理也为人们带来了新的技术挑战。顺应时代需求而产生的大数据处理技术成了当今的热门技术,它不仅可以存储数百TB数据、甚至可以存储数百PB数据,同时它有hadoop的离线式计算框架、storm的流式计算框架以及spark基于内存的计算框架等不同计算框架可以满足不同需求的数据分析。大数据,取意于大量数据,其典型的特征包括:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。而随着汽车数量的快速增长,每天都有海量的汽车行车位置数据被记录。如何充分利用这些海量位置数据,寻找汽车行车位置数据隐藏的规律,为缓解交通压力、方便城市交通生活提供数据支持,成为了大数据领域的一个重要研究方向。
  本文首先对大数据处理的相关技术进行了研究,分析了hadoop分布式的文件存储系统HDFS、分布式的计算框架MapReduce、新一代的资源管理器Yarn,以及可以存储海量数据的分布式数据仓库Hive,封装了各种机器学习方法的mahout技术等。然后通过对大数据技术的研究和学习,搭建了一个具有5个机器节点的hadoop集群,对海量的行车位置数据信息进行数据分析。在部署的hadoop集群环境中,利用hive数据仓库对海量位置数据进行存储,并利用MapReduce以及hive的sql语言实现了对海量位置数据的清洗;通过分析工作日车辆的位置数据,得到车主家和公司的位置,并利用mahout机器学习的kmeans聚类算法分析可全程拼车的路线;然后利用改进的豪斯多夫距离得到可以拼车的车主路线,并利用基于匹配度的聚类为乘客推荐合适的途中拼车的路线。
其他文献
税收是为了支持国家中的若干经济活动所必需的一种规范形式,增加税收是提高政府收入的最佳途径。税收是政府获取收入的一个重要来源,也是个人或组织对政府的一项金钱负债。税收的主要目的是为公共支出提供资金支持,同时也被用来实现其他目标,例如,平衡和处理经济中的社会与金融问题。税收是具有一定强制性的,任何国家的人民都必须支付,以确保政府能够提供公共物品以及好的商品和服务,例如教育、医疗,税收还可促进经济增长,
学位
资本帐户开放,是一国对外经济部门走向自由化的重要内容.90年代以来,世界贸易自由化深入发展,经常帐户支付限制逐步解除.于是,资本帐户开放问题,凸显在许多发展中国家面前.资本帐户开放,作为发展中国家经济自由化进程中的改革尝试,并不是一帆风顺.不少国家,在获得开放利益的同时,也历经变革的阵痛和危机的煎熬.70年代末80年代初拉美南锥体地区几国的金融危机,1994年墨西哥汇率危机,以及1997年发生在东
学位
一直以来,贫困问题都制约着世界上各个国家政治经济的全面发展,治理和消除贫困,也是各国政府长期以来面临的难题。建国后,我国政府更是高度重视贫困问题,始终把消除贫困摆在经济社会发展的重要位置,特别是在改革开放之后。我国历代领导人在遵循社会发展实际、总结前人经验以及不断实践的基础上,在不同的发展阶段中产生了独具特色的扶贫思想,连而贯之,形成了与中国国情相适应的扶贫开发理论体系。经过多年的扶贫实践,我国的
学位
网络虚拟财产是近几年随着计算机网络技术发展和网络游戏的风靡而诞生的一种新的财产形式。随着网络虚拟财产纠纷的增多,要求通过立法对虚拟财产进行保护的呼声日益提高,也越来越多地受到法学界的关注。本文对网络虚拟财产进行研究的目的是为网络虚拟财产立法做好理论上的准备,并对立法的主要内容提出一些构想和建议。首先,本文对网络虚拟财产的定义和范畴做了基本的界定,并分析了研究网络虚拟财产的意义和必要性。本文认为虚拟
从上个世纪90年代起,在全世界范围内掀起了第五次并购浪潮,大型并购可谓愈演愈烈。超大规模并购的频频发生,使世界经济格局发生了深远的变化。行业中新的大型跨国公司的不断出现,使行业内的竞争格局在全世界范围内发生巨大变化。中国加入WTO后,外资将更多地采用国际上流行的并购方式在我国设立企业,具体包括协议并购、通过产权交易市场并购、通过股票市场并购、通过股权转让及增资扩股方式并购等。联合国贸发会发表的《2
学位
非接触电能传输技术是一门新兴的能量传输技术,它集合了电力电子能量传输技术、磁场耦合技术以及现代控制理论。由于这种电能传输方式没有接触摩擦,可减少对设备的损伤,不会产生易引燃引爆的火花,解决了给移动设备特别是在恶劣环境下,工作设备的供电问题。在交通运输、航空航天、机器人、医疗器械、照明、便携式电子产品、矿井和水下应用等场合有着广泛的应用前景。本文对非接触电能传输技术进行了理论和实验研究。主要研究内容
学位
随着SF电气设备应用不断增多,对SF气体的质量监督日益重要。但是SF电气设备中的气体不可避免的含有杂质,在电弧作用下,这些杂质容易与SF气体的分解物反应生成毒性物质,从而腐蚀电气设备,降低设备绝缘能力。若杂质含量超标,将严重影响设备的电气性能、机械性能和开断性能,将造成许多严重的后果。本文论述了检测SF电气设备中SF气体分解物的重要意义,分析了国内外该方面研究的现状,从而提出对SF气体分解物检测系
近年来,深度神经网络在诸多领域受到了广泛的关注,如语音识别、计算机视觉和生物信息学等,比起目前机器学习算法,它提高在这些领域表达的性能。尤其是卷积神经网络在图像识别上表现出超凡的技术能力,超越了先前处理计算机视觉问题的方法,并且赢得了很多重要的比赛。随着大数据时代的到来,传统的机器视觉方法在一定程度上已不再能满足图像识别在处理大规模数据上的实用性和安全性的要求。深度学习成为图像识别的研究热点,取得
学位
复杂疾病的诊疗决策过程十分繁复,单个医疗角色无法对疾病进行准确和快速的诊疗决策,往往需要多个医疗角色参与其中共同作出决策。随着医疗信息化水平的提升,多角色共同参与的决策过程已不再受到地域的限制,而是可以在分布式网络环境中进行。如何在分布式环境中有效地组织、管理各种角色,让他们高效地交流、协作以作出正确的诊疗决策是分布式环境下医疗决策过程中最为关键的问题。为了更好地在分布式环境中组织和管理医疗角色,
互联网的不断更新变化,对整个世界产生了深远的影响。新技术的出现即改善了人们的生活,同时也带来了一定的挑战。不法分子为获得利益利用新技术实施犯罪,如侧信道攻击可通过对加密设备执行过程中功耗、频率和时间等的检测,进而获得设备执行过程中内部的重要信息,使得现有“安全的”密码方案的安全性所有降低。针对密钥管理与泄漏问题,将抗泄露与秘密共享技术相结合是主要解决手段之一。本文对泄漏条件下的秘密共享方案进行研究
学位