实时流数据分析的关键技术及应用

来源 :上海交通大学 | 被引量 : 6次 | 上传用户:haha300n
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,大规模的数据在短时间内持续产生,数据的格式和类型也多样化,这些特征使得传统的数据处理系统难以有效地处理大规模的实时流数据。如何快速地处理大规模流数据是计算系统面对的新挑战。针对大规模的实时流数据,本文以分布式流数据处理系统作为处理平台,通过集群架构对流数据进行分布式处理,提供实时分析与决策能力。我们对实时流数据分析展开了三个工作:(1)提出了一种对流数据进行实时在线聚合的方法,用户可以实时地得到最新的处理结果和统计分析;(2)提出了一种对流数据进行长期预测的方法,根据数据特征实时地预测数据未来的趋势;(3)针对智能交通应用,通过分布式流数据处理给司机进行实时导航,并根据路况信息实时更新导航路线。具体内容如下:1.在线聚合扩展了传统数据查询的批处理模型,它可以持续性地更新聚合结果,并给用户提供当前结果的统计分析。传统分布式架构(如Map Reduce)在支持在线聚合方面存在一些性能问题,数据在处理过程中访问硬盘I/O成本较大,无法快速地提供聚合结果和统计分析;随机采样是在线聚合的重要环节,但是在异构流数据中难以实现随机采样。针对在线聚合在分布式系统中的性能问题,提出了一个分布式流数据的在线聚合方法。该方法中采用一种新的分布式随机采样算法,解决了异构数据流的难以采样问题;在处理复杂任务时,采用Actor model简化任务,通过异步机制进行消息传递,设计了在内存中快速地处理接收到的流数据和增量处理策略;进一步我们提出一个动态拓扑结构来优化多查询处理,这个拓扑结构可以将每个查询分解成多个独立的小任务,任务与任务之间可以通过发送与接收消息进行通信,减少了查询之间的重叠操作。通过公开的基准数据TPC-H进行实验,表明该方法能够较准确的结果快速地反馈给用户,运行的速度与效果比Map Reduce Online好。2.在实时流数据中长期预测是一个困难而重要的问题。在某些应急系统中,长期预测将比短期预测更加有用,长期预测可以提供更多的时间进行准备和应对异常事件,但是传统的方法在对长期预测方面不够有效。提出一种在实时流数据上长期预测的方法,该方法能够从历史数据中找到相似模式,并根据找到的模式对将来的数据进行预测;并通过机器学习算法Adaboost算法解决了模式长度难以选择等问题;最后为了提高算法的效率,我们通过分布式流数据处理进行模式匹配与预测,并把预测算法部署到分布式流数据系统S4中,在实际部署过程中采用多种优化策略,如分区策略,匹配方式优化等提高系统效率,通过实验证明分布式计算能够快速的进行模式匹配与预测,支持大规模的在线模式匹配与长期预测。3.如何快速地给司机提供实时的最短路径是当前交通系统遇到的一个挑战的问题。现有的查询最短路径方法中,一种是为最短路径建立一个索引系统,但是这种方法需要很多预处理成本,另外一种是使用分布式图处理系统,如Pregel,但是这些系统在处理过程中需要大量的同步成本。由于路况状态实时更新,这两种方法在支持实时最短路径方面性能较低。我们建立一个基于分布式流数据处理实现实时导航系统,采用异步消息机制在动态图中寻找最短路径查询。当路况发生变化时,它能够快速地检测到受影响的最短路径,并对其进行更新调整。在整个导航过程中,受影响的路径能够快速更新,并调整到最优路径。实验结果表明我们的系统CANDS在查询最短路径方面比现有的开源系统GPS快两个数量级,另外CANDS在路况发生更新时能够快速的进行路径检测与更新调整。
其他文献
视觉是人类获取信息的主要方式之一。图像在人类工作和生活中充当着异常重要的角色。图像处理就是指从图像中提取信息的关键技术,在工业和生活等各个方面都有广泛的应用,如农
人工智能经过60多年的发展已经取得了巨大进步,作为人工智能领域中最活跃分支之一的机器学习也相应地得到快速发展。聚类作为一种有效的数据分析方法和工具,一直以来,在学术
文章介绍了尘螨对人体的危害和几种防螨措施,着重对纺织品的防螨方法进行探讨,具体分析了三种纺织品防螨技术,即防螨后整理、防螨功能纤维技术和高密度织物防螨技术,并介绍了使用
本文探讨了多媒体和计算机视觉领域的一项关键技术—图匹配问题的形式化与算法设计。图匹配的目标是通过不同事物之间在结构上的相似性,自动地建立两个或者多个图结构之间的
<正>修改后刑诉法专章规定了未成年人刑事案件诉讼程序,在程序设计上体现出"教育、感化、挽救"的未成年人刑事案件处遇方针。但是,在当前的司法实务中,未成年人刑事案件的办
现代民用飞机“C”级货舱均安装有经批准的固定式灭火或抑制系统,可对前货舱或后货舱实施一次有效的灭火,防护乘客和机组人员的安全,确保飞机安全飞行及应急着陆。文章简述了
为了快速高效、科学合理地对经济圈交通网络发展水平进行评价,建立了一种新的机器评价方法——支持向量机(SVM)综合评价方法.在对支持向量机理论研究分析的基础上,应用支持向
目的研究福建省2008年至2010年公共场所空调冷却塔水及冷凝水中分离的嗜肺军团菌血清I型(LPI)及血清Ⅵ型(LP6)的基因特征。方法应用脉冲场凝胶电泳(pulsed-fieldgelelectrophoresi
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield