基于HBase的交通流数据实时存储与查询优化方案的设计与实现

来源 :江苏大学 | 被引量 : 8次 | 上传用户:mysticlisten
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的飞速发展,互联网存储技术日益成熟,智能交通领域得到空前进步,以海量交通流数据为基础的智能交通技术得到业界广泛关注。交通数据采集技术迅速完善,采集手段多样化,数据量激增。我国沿海地区一个中型规模城市每天产生数千万条交通流数据,每年汇集的数据量达到数百TB级。面对如此庞大的数据量,必须对其所搭载的系统进行优化,以适应实际应用需求。Hadoop作为较成熟的海量数据处理计算框架,其核心HDFS和MapReduce为用户提供了高效的数据存储能力和分布式计算模型。HBase分布式数据库采用Hadoop的分布式文件系统实现存储功能,支持Hadoop并行计算框架,使用HBase作为海量数据的存储媒介,具有更稳定的可靠性和数据检索能力。为解决传统关系型数据库进行海量数据读写时普遍性能低下的缺陷,本文致力于研究基于HBase的交通流数据实时存储与查询优化方案,实现交通工程中对数据的实时处理要求,主要内容和创新点如下:(1)本文以道路车辆信息数据为模型,分别针对数据存储和查询两个方面,设计出一种基于HBase的集群架构模型和优化方案。(2)数据存储方面,本文分析交通流数据特征设计了HBase复合主键存储模型。首先介绍了一种依据数据特征社群进行分片的Region预分区策略用以解决Region拆分导致的数据“热点”问题。其次,为了解决集群节点变更导致的数据丢失问题,提出了一种基于散列技术和一致性哈希算法的存储调度算法。然后,对于数据缓冲和数据写入给出具体的实现方案,最后,本文从数据写入性能和缓冲队列写入阈值测试两个方面进行实验,验证本优化方案中数据查询模块相比现有数据存储模块具有更好的性能。(3)数据查询方面,本文利用Redis分布式集群服务器和本地磁盘设计了多级缓存策略并给出了实现方案。本文首先提出了一种Redis分布式缓存服务器系统架构,设计一种缓存记录值存储模型。然后,根据访问频率的不同引入热度值的概念,设计出一种基于热度积累的缓存淘汰算法。最后,本文从数据读取效率和缓存淘汰策略对比两个方面进行实验,验证使用当前优化方案的交通流数据查询相比现有查询方案具有更高的查询效率。
其他文献
<正> 一、粤港贸易往来回顾 香港作为中国南部的重要港口,历来是广东沟通海外的门户。1949年以来,中国政府一直对香港采取“长期打算、充分利用”的方针,广东的粮食、蔬菜、
为合理确定±1 100 kV特高压直流换流站的绝缘水平,基于准东—成都±1 100 kV特高压直流输电工程,根据特高压换流站的绝缘配合方法,对准东换流站的绝缘配合进行了研究。根据
文章从三个方面对入手对大学生新兵思想政治教育问题进行探讨,包括:把加强理论灌输、打牢思想根基作为大学生新兵思想政治教育的首要任务;坚持用多种方法来吸引大学生思想政
人文关怀和心理疏导作为加强和改进思想政治工作的重要方面,己经连续出现在党的十七、十八大报告中,为加强和改进思想政治工作指明了方向。充分了解人文关怀和心理疏导在体育
<正>2008年11月26-28日,印度孟买发生了一场举世震惊的恐怖袭击事件,当地媒体采取了三天两夜连续60小时的电视直播。事后研究显示,印度媒体在孟买袭击中的不少表现受到业界及
通过参与"《劳动合同法》对企业用工行为的影响"以及"农民工职业培训的现状、问题及对策研究"这两个SRT课题小组的调查研究,对南京、苏州地区的外来务工人员进行了抽样调查与
系统地研究了如何对临近空间飞行器进行有效实时跟踪的问题,并提出了一种基于约束总体最小二乘与自适应交互式多模型(CTLS-AIMM)滤波相结合的实时跟踪滤波算法。首先考虑到临
目的探讨骨科损伤控制技术在救治以多发骨折为特征的儿童严重多发伤中的可行性和疗效。方法1996年5月~2006年6月,对27例严重多发伤儿童均应用骨科损伤控制技术(快速止血、控制
石油企业作为我国国民经济的支柱产业,发展迅速,企业规模逐年扩大。但是,作为提升企业核心竞争力的物流活动,还未被所有企业所重视。文章对物流一体化的概念作了简要介绍,阐
基于改造后的天生桥—广州±500 kV高压直流输电工程,计算分析了在换流变Y/Y线圈阀侧单相接地、交流相间操作冲击、逆变侧失交流电源和逆变侧闭锁而旁通对未解锁4种典型故障