实时流数据分析的关键技术及应用

来源 :上海交通大学 | 被引量 : 6次 | 上传用户：haha300n

【摘要】

：

随着互联网的发展,大规模的数据在短时间内持续产生,数据的格式和类型也多样化,这些特征使得传统的数据处理系统难以有效地处理大规模的实时流数据。如何快速地处理大规模流

【作者】

：

杨定裕

【出处】

：

上海交通大学

【发表日期】

：

2015年01期

【关键词】

：

分布式流数据系统实时处理在线聚合模式匹配长期预测最短路径

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,大规模的数据在短时间内持续产生,数据的格式和类型也多样化,这些特征使得传统的数据处理系统难以有效地处理大规模的实时流数据。如何快速地处理大规模流数据是计算系统面对的新挑战。针对大规模的实时流数据,本文以分布式流数据处理系统作为处理平台,通过集群架构对流数据进行分布式处理,提供实时分析与决策能力。我们对实时流数据分析展开了三个工作:(1)提出了一种对流数据进行实时在线聚合的方法,用户可以实时地得到最新的处理结果和统计分析;(2)提出了一种对流数据进行长期预测的方法,根据数据特征实时地预测数据未来的趋势;(3)针对智能交通应用,通过分布式流数据处理给司机进行实时导航,并根据路况信息实时更新导航路线。具体内容如下:1.在线聚合扩展了传统数据查询的批处理模型,它可以持续性地更新聚合结果,并给用户提供当前结果的统计分析。传统分布式架构(如Map Reduce)在支持在线聚合方面存在一些性能问题,数据在处理过程中访问硬盘I/O成本较大,无法快速地提供聚合结果和统计分析;随机采样是在线聚合的重要环节,但是在异构流数据中难以实现随机采样。针对在线聚合在分布式系统中的性能问题,提出了一个分布式流数据的在线聚合方法。该方法中采用一种新的分布式随机采样算法,解决了异构数据流的难以采样问题;在处理复杂任务时,采用Actor model简化任务,通过异步机制进行消息传递,设计了在内存中快速地处理接收到的流数据和增量处理策略;进一步我们提出一个动态拓扑结构来优化多查询处理,这个拓扑结构可以将每个查询分解成多个独立的小任务,任务与任务之间可以通过发送与接收消息进行通信,减少了查询之间的重叠操作。通过公开的基准数据TPC-H进行实验,表明该方法能够较准确的结果快速地反馈给用户,运行的速度与效果比Map Reduce Online好。2.在实时流数据中长期预测是一个困难而重要的问题。在某些应急系统中,长期预测将比短期预测更加有用,长期预测可以提供更多的时间进行准备和应对异常事件,但是传统的方法在对长期预测方面不够有效。提出一种在实时流数据上长期预测的方法,该方法能够从历史数据中找到相似模式,并根据找到的模式对将来的数据进行预测;并通过机器学习算法Adaboost算法解决了模式长度难以选择等问题;最后为了提高算法的效率,我们通过分布式流数据处理进行模式匹配与预测,并把预测算法部署到分布式流数据系统S4中,在实际部署过程中采用多种优化策略,如分区策略,匹配方式优化等提高系统效率,通过实验证明分布式计算能够快速的进行模式匹配与预测,支持大规模的在线模式匹配与长期预测。3.如何快速地给司机提供实时的最短路径是当前交通系统遇到的一个挑战的问题。现有的查询最短路径方法中,一种是为最短路径建立一个索引系统,但是这种方法需要很多预处理成本,另外一种是使用分布式图处理系统,如Pregel,但是这些系统在处理过程中需要大量的同步成本。由于路况状态实时更新,这两种方法在支持实时最短路径方面性能较低。我们建立一个基于分布式流数据处理实现实时导航系统,采用异步消息机制在动态图中寻找最短路径查询。当路况发生变化时,它能够快速地检测到受影响的最短路径,并对其进行更新调整。在整个导航过程中,受影响的路径能够快速更新,并调整到最优路径。实验结果表明我们的系统CANDS在查询最短路径方面比现有的开源系统GPS快两个数量级,另外CANDS在路况发生更新时能够快速的进行路径检测与更新调整。

其他文献

图像处理中去噪与超像素生成算法研究

视觉是人类获取信息的主要方式之一。图像在人类工作和生活中充当着异常重要的角色。图像处理就是指从图像中提取信息的关键技术,在工业和生活等各个方面都有广泛的应用,如农

学位

图像分割超像素图像去噪视频去噪稀疏性低秩性聚类网格简化

大规模数据场景下的有监督（迁移）聚类技术研究

人工智能经过60多年的发展已经取得了巨大进步,作为人工智能领域中最活跃分支之一的机器学习也相应地得到快速发展。聚类作为一种有效的数据分析方法和工具,一直以来,在学术

学位

聚类算法模糊C均值极大熵知识迁移大规模数据增量式聚类多代表点

防螨功能纺织品的防螨技术

文章介绍了尘螨对人体的危害和几种防螨措施，着重对纺织品的防螨方法进行探讨，具体分析了三种纺织品防螨技术，即防螨后整理、防螨功能纤维技术和高密度织物防螨技术，并介绍了使用

期刊

尘螨防螨织物防螨纤维驱螨率

图匹配问题的研究和算法设计

本文探讨了多媒体和计算机视觉领域的一项关键技术—图匹配问题的形式化与算法设计。图匹配的目标是通过不同事物之间在结构上的相似性,自动地建立两个或者多个图结构之间的

学位

图匹配多图匹配点配准多视图点配准组合优化凸优化凹优化矩阵低秩稀疏分解矩阵恢复互激励点过程机器学习

未成年人刑事案件捕诉一体化初探

<正>修改后刑诉法专章规定了未成年人刑事案件诉讼程序,在程序设计上体现出"教育、感化、挽救"的未成年人刑事案件处遇方针。但是,在当前的司法实务中,未成年人刑事案件的办

期刊

未成年人刑事案件捕诉一体化社会危险性

民用飞机货舱灭火系统设计方法研究

现代民用飞机“C”级货舱均安装有经批准的固定式灭火或抑制系统,可对前货舱或后货舱实施一次有效的灭火,防护乘客和机组人员的安全,确保飞机安全飞行及应急着陆。文章简述了

期刊

民用飞机“C”级货舱灭火系统设计方法

经济圈交通网络SVM评价方法

为了快速高效、科学合理地对经济圈交通网络发展水平进行评价,建立了一种新的机器评价方法——支持向量机(SVM)综合评价方法.在对支持向量机理论研究分析的基础上,应用支持向

期刊

交通网络经济圈评价支持向量机神经网络

福建省嗜肺军团菌血清1型及血清6型菌株PFGE分型研究

目的研究福建省2008年至2010年公共场所空调冷却塔水及冷凝水中分离的嗜肺军团菌血清I型（LPI）及血清Ⅵ型（LP6）的基因特征。方法应用脉冲场凝胶电泳（pulsed-fieldgelelectrophoresi

期刊

嗜肺军团菌1型嗜肺军团菌6型脉冲场凝胶电泳指纹图谱PFGE型

中国高炉风温状况分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

高炉风温现状技术分析

凝心聚力助推宁波经济社会攻坚攀高

期刊

宁波帮全世界侨务工作港澳同胞中东欧国家华侨华人凝心聚力

实时流数据分析的关键技术及应用

与本文相关的学术论文