分布式流数据实时计算框架的研究和开发

被引量 : 0次 | 上传用户:zhengziwei5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据量计算技术的发展,基于数据处理的应用受到广泛关注,而数据源的结构也显示出多样化的趋势,这些数据中不仅有传统的非实时的、静态结构化数据,还有很多实时的、动态产生的非结构化数据流。这类连续到达的非结构化数据序列,它们的输入率、输入量和来源都在不断变化,很难准确预测。面对庞大变化的海量数据流,要获取流数据中携带的重要信息,实时地进行复杂计算,依靠传统的分布式计算模式很难实现。这就促使本文对分布式流数据实时计算这一新的计算模式展开深入研究。目前,国内外针对分布式流数据实时计算框架的研究仍在起步阶段,尚没有一个成熟的产品。因此,作者在深入分析流数据处理应用需求的情况下,设计并实现了完整的分布式流数据实时计算框架iStream,对框架性能的关键性因素一负载均衡做了深入的研究和优化。经过实验和性能测试,证明该框架可以根据实际应用场景进行灵活的定制,并具有良好的实时性和可扩展性。本文的主要研究内容和成果如下:(1)对分布式计算框架中几个关键技术进行了研究,结合数据流形式的多样化和数据流应用场景的多样化的特点,本文实现和设计了一个不针对任何特定场景,可以解决多种复杂计算的分布式流数据实时计算平台iStream,它具有很强通用性和可扩展性,显著提高了第三方开发人员的开发效率。(2)为了增加吞吐量、加强数据处理能力、提高计算节点集群的灵活性和可用性,研究了动态调度技术以及负载均衡算法,提出了使用时间序列预测算法解决并行计算中的任务调度这—NP-完全问题,并通过改进模型化AR模型评估算法来处理非平稳数据序列,使得程序更有效率,预测更精准,并可适用于流数据这类不能用简单的分段模型表示的数据源,同时保证了动态负载均衡算法的性能。(3)系统框架的设计与实现。在研究了并行计算中主流编程模型,诸如MapReduce等模型的基础上,将改进的发布—订阅者模型用到iStream框架中,并分析比较了多种主流的分布式进程通信方式,解决了高并发实时处理,分布式系统数据通信安全和自适应调整等分布式系统中的关键问题。并结合流计算的特点,在框架各模块的设计与实现中,对传统分布式计算策略进行了改进,提高了框架的安全性,显著降低了延迟率。(4)深入分析了分布式实时计算框架的适用场景,并通过基于CTR效果广告系统和在线参数优化系统作为案例研究了iStream在商业应用中的效果。最后对本课题进行了总结和下一步研究的展望。
其他文献
城市商业银行经过近20年的信息化建设,已经建立起一套适合自身业务需要的信息系统,随着银行业务的不断扩展与变化,信息系统将呈现多样化和复杂化,作为城市商业银行的IT部门,将面临
在发达国家,行业组织在规范市场经济运营,促进行业发展过程发挥巨大的作用。改革开放以来,伴随着内蒙古自治区经济发展的进程,各种行业组织如雨后春笋获得了蓬勃发展的机遇。
领导力问题是学者们关注的热点问题之一。然而对社区居委会主任领导力的研究不多。本研究依据社区居委会主任胜任力模型中社区主任的胜任特征因子,将社区主任领导力分为分析
人类进入21世纪,实践已经证明片面追求经济的增长,满足人类的欲望,不顾环境的承载能力,是不理智的也是不可持续。因此在现代城市的建设过程中如何实现经济、社会和环境的协调和谐
本文从80后的成长环境入手,通过文献、调查研究等方法,归纳出80后个性方面的共性特征,在此基础之上提出针对性的管理策略,争取为企业起到对80后实施有效管理的作用。
本文简要介绍了我国国产电子元器件的质量等级体系和军用电子元器件国军标体系现状,并对目前军用电子元器件的质量问题情况进行了分析。在分析的基础上提出了军用电子元器件
白念珠菌是一种广泛存在于人体内的共生真菌,也是人类最常见的机会性致病真菌,可引起浅表感染甚至威胁生命的系统性感染。白念珠菌具有很强的形态可塑性,而且这种形态可塑性
住房是居民基本的生存条件,保障性住房是解决全社会居民居住问题的重要保障,尤其是中低收入阶层。随着国家对保障性住房建设的关注不断加大以及相关政策的出台,中国的保障性
新世纪以来,随着基础教育课程改革的展开,学前教育受到人们的广泛关注。在《幼儿园教育指导纲要(试行)》精神指导下,幼儿园课程改革逐渐深入,人们对幼儿园生成课程的关注和研
刑事公诉案件起诉方式以控方在起诉时是否将案卷材料移送给法院为标准,划分为起诉状一本主义和案卷移送主义。我国采案卷移送主义起诉方式,但我国的案卷移送主义并非大陆法系