面向海量数据的在线流数据管理研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liguang1233000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,全球范围内的数据量呈爆炸性增长。分析调研机构IDC发布的报告显示,全球的数据总量每两年就会增加一倍。到2015年,数据量预计将会达到8000EB。  海量数据中,流数据是一种非常重要的数据类型,它广泛地出现在各行各业的应用中。流数据可以被看成是一种随着时间动态增长的数据集合。在流数据处理过程中,存在一种多应用共享流数据的场景。因为流数据规模巨大和增长迅速的特点,导致广泛的多应用共享流数据的需求。如果流数据无法被及时处理,就需要将这些数据进行存储。当不同应用需要访问流数据时,都需要从存储系统中进行读取。这样不但降低了流数据的处理效率而且增加了存储负载和I/O开销。如何能在为不同应用类型提供高效流数据服务的同时,提升流数据的处理响应速度,减小空间开销成为一个迫切需要解决的问题。本文从在线流数据服务框架、数据管理算法和在线流数据服务系统三个层面对这个问题进行讨论和解决。  首先,本文提出了一个在线流数据服务框架。通过对多应用共享流数据场景进行分析和抽象,设计了具有数据层、管理层和接口层的在线流数据服务框架。框架将流数据管理划分为索引建立、注册器、匹配器和内存清理四个组成部分,并且通过一个专用的数据管理引擎对流数据进行管理。框架的提出为多应用流数据共享场景提供了一种统一管理流数据的方案。  其次,本文研究了基于倒排索引的数据管理算法。多应用共享流数据问题可以直观地建模为以数据为顶点以共享关系为边的图模型。但是这个图模型的顶点数目多,难于计算。我们首先通过研究该图模型的对偶形式,建立了对偶图模型。通过对对偶图中的边的数目进行压缩,大大简化了对偶图模型。然后以对偶图模型的顶点表为基础,建立一种倒排索引结构。在倒排索引结构上设计了应用注册、数据查询和内存清理等算法。基于倒排索引的数据管理算法,为在线服务框架提供一种高效的数据管理方式。  最后,本文设计实现了一个在线流数据服务系统SkyAvenue。SkyAvenue系统以在线流数据服务框架为基础,提供索引建立、应用注册、数据查询和内存清理等功能。并且在测试环境和实际环境中对SkyAvenue进行了实验,实验结果表明,SkyAvenue系统在多应用流数据共享场景写有着良好的读写性能和稳定的空间开销。  本文从多应用共享流数据场景的实际需求出发,首先从抽象层面进行分析,提出一种在线流数据服务框架,然后重点研究了一种基于倒排索引的快速数据管理算法,最后设计实现了一个在线流数据服务系统SkyAvenue。提出一种为不同应用提供高效流数据服务的同时,提升流数据的处理响应速度,减小空间开销的整体解决方案。  
其他文献
学位
近年来,随着Web2.0的飞速发展,社区问答系统逐渐成为一种非常流行而实用的互联网应用。与传统问答系统不同的是,在社区问答系统中,用户不但可以提问和回答任何领域、任何类型的问
传统的网络体系架构主要是建立在昂贵的专有硬件和封闭软件的基础之上。这种体系结构,严重地阻碍了网络新协议、新技术的发展和应用,因而妨碍了网络的变革和创新。在这样的背
该文运用对象建模技术,在客户/服务器应用平台上,设计并实现了二医院信息系统的基本原型.
微信数据作为一种新的社交媒体有着非常迅猛的发展速度,而且据最新的统计显示截止到2015年微信每日活跃账户已经超过一亿了。目前基于微信公共号的订阅模式的信息分发方式已经
网络是一把双刃剑,它既为多媒体的传播提供快捷通道,同时也使得这些数字作品被复制和修改的几率大大提高。加密方法为版权保护提供了一种有效的途径。该方法使用密钥和加密算
区域人流量预测不仅可以解决交通拥堵问题也可以避免类似上海外滩踩踏事件的发生,在人们的日常生活中具有非常重要的应用价值。随着各种定位技术及基于位置服务产品的发展,产生
云计算(Cloud Computing)是网格计算、分布式计算、并行计算等传统计算机和网络技术发展融合的产物。作为一种新兴的计算模式,云计算以其高度的可扩展性、灵活的按需付费模式
TCAM由于其稳定又高效的查找性能,近年来被广泛应用于高速网络下的数据包分类系统中。TCAM中的规则表是动态的,当网络拓扑变化或者防火墙策略变更时,规则会被插入或者删除。插入
随着互联网的高速发展,数据急剧增长,低时延高吞吐的分布式流处理引擎应运而生。对于分布式流处理引擎而言,能应对服务器宕机、数据波动变化大、操作复杂度变化等情况显得格外重