云计算中流式处理的相关问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:matlab_walker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据计算时代的到来,流式数据处理逐渐成为一个热门的研究领域。由于对数据处理低延时的严格要求,传统的计算模型已经不能满足流式数据处理的应用场景,流式数据处理需要一个全新的计算模型对其进行支持。本文重点研究大数据计算中流式处理相关的三个问题:(a)能否利用某些特有的通信技术手段从本质上提升流式计算的通信效率?(b)现有的相关理论模型能否用于指导流式数据处理系统的设计和实现?(c)能否利用流式数据计算的特点对流式数据处理系统进行相应的优化?  针对以上三个问题,本文的主要研究内容和贡献如下:  针对(a)问题,设计和实现了流式数据处理系统MPI-D Streaming,该系统在上层兼容现有的流式计算模型的前提下,底层使用先进的高性能计算通信库,使得流式数据处理平台可以利用先进的高性能通信网络,为从根本上解决流式计算的通信效率问题提供了可能,目前该研究成果已经准备开源,为开源社区做出贡献。  针对(b)问题,发现和证明了流式计算满足DOTA模型。本文论述了流式计算系统选择计算模型指导的原因和好处,并通过现有的三种经典计算模型的对比,最终认为DOTA模型适合用于指导流式数据处理系统的设计和实现并分析了其它经典模型不适合的原因。流式DOTA模型的确立为今后的流式计算领域进行推导证明提供了理论基础。  针对(c)问题,发现了流式数据处理中存在的流叠加现象,进而提出了流式数据处理系统中存在操作和传输两种局部性特征。本文利用该现象对流式处理系统进行优化,并从理论模型的角度对上述两种局部性特征进行了证明,从而证明了流式DOTA模型和流式数据处理系统间存在着内在联系。
其他文献
学位
学位
学位
如何进行合理高效的任务调度是云计算研究的重要问题。本文结合新疆电子政务云系统,针对如何提高云计算任务调度的效率和负载均衡的问题,做前期的研究和探索。本文在对云计算环
客户端缓存技术是优化各种分布式或集中式存储系统的重要技术手段,它具有降低客户端访问延迟、降低服务器负载、以及平滑数据访问行为的优点。SSD技术的迅猛发展进一步增加了
电子断层(Electron Tomography,ET)三维重构技术能够在纳米尺度下重构出不具有全同性的细胞或大分子的三维结构,已成为一种公认的研究复杂生物大分子结构的强有力手段。虽然电
现代高性能片上网络(Network on Chip,NoC)互连芯片设计日益复杂,面临性能、功耗、面积、开发时间、成本等诸多因素制约,往往设计需经过从体系结构层到物理实现层的多层迭代与优
随着Web2.0设计理念的普及和技术的不断成熟,“以人为本”的网络模式逐渐成为当今互联网的主流,微博是其中具有代表性的应用之一。面对着海量的微博数据,微博检索已经成为用户在
学位
学位