论文部分内容阅读
随着大数据量计算技术的发展,基于数据处理的应用受到广泛关注,而数据源的结构也显示出多样化的趋势,这些数据中不仅有传统的非实时的、静态结构化数据,还有很多实时的、动态产生的非结构化数据流。这类连续到达的非结构化数据序列,它们的输入率、输入量和来源都在不断变化,很难准确预测。面对庞大变化的海量数据流,要获取流数据中携带的重要信息,实时地进行复杂计算,依靠传统的分布式计算模式很难实现。这就促使本文对分布式流数据实时计算这一新的计算模式展开深入研究。目前,国内外针对分布式流数据实时计算框架的研究仍在起步阶段,尚没有一个成熟的产品。因此,作者在深入分析流数据处理应用需求的情况下,设计并实现了完整的分布式流数据实时计算框架iStream,对框架性能的关键性因素一负载均衡做了深入的研究和优化。经过实验和性能测试,证明该框架可以根据实际应用场景进行灵活的定制,并具有良好的实时性和可扩展性。本文的主要研究内容和成果如下:(1)对分布式计算框架中几个关键技术进行了研究,结合数据流形式的多样化和数据流应用场景的多样化的特点,本文实现和设计了一个不针对任何特定场景,可以解决多种复杂计算的分布式流数据实时计算平台iStream,它具有很强通用性和可扩展性,显著提高了第三方开发人员的开发效率。(2)为了增加吞吐量、加强数据处理能力、提高计算节点集群的灵活性和可用性,研究了动态调度技术以及负载均衡算法,提出了使用时间序列预测算法解决并行计算中的任务调度这—NP-完全问题,并通过改进模型化AR模型评估算法来处理非平稳数据序列,使得程序更有效率,预测更精准,并可适用于流数据这类不能用简单的分段模型表示的数据源,同时保证了动态负载均衡算法的性能。(3)系统框架的设计与实现。在研究了并行计算中主流编程模型,诸如MapReduce等模型的基础上,将改进的发布—订阅者模型用到iStream框架中,并分析比较了多种主流的分布式进程通信方式,解决了高并发实时处理,分布式系统数据通信安全和自适应调整等分布式系统中的关键问题。并结合流计算的特点,在框架各模块的设计与实现中,对传统分布式计算策略进行了改进,提高了框架的安全性,显著降低了延迟率。(4)深入分析了分布式实时计算框架的适用场景,并通过基于CTR效果广告系统和在线参数优化系统作为案例研究了iStream在商业应用中的效果。最后对本课题进行了总结和下一步研究的展望。