基于Storm的实时数据SQL化查询工具的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:ksh0323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实时流式数据查询中,缺少成熟的SQL方案,主要依赖编程语言来完成流式数据的查询工作。为了统一和简易地处理实时流式数据的查询请求,本论文开发了一个基于Storm实时计算平台的流式查询工具StreamSQL。StreamSQL工具通过使用类SQL语句完成实时流式数据的持续化查询任务,提供流式数据的过滤、合并等基本SQL功能外,还引入了基于流式数据窗口的计算、聚合、关联等功能。流式数据是一组随时间延续而无限增长的动态数据集合,基本单位为序列,记作Element,其中tuple是数据元组,包含数据结构和数据内容,time是数据元组的时间属性。根据流式数据流动性、无边界等特点,StreamSQL语法中使用数据流代替数据表的概念,并增加窗口功能。窗口功能是在一定时间或者元组集合的范围内聚合元组构成视图,再进行类似数据库表的聚合、关联等查询操作。窗口分为时间窗口和记录窗口,前者以时间为单位产生过期事件,后者以元组集合为单位产生过期事件。窗口处理数据的方式是批量产生该范围的过期数据来构成视图。语法功能提供数据流的过滤、合并和基于窗口的聚合、关联等查询操作。查询结果以数据流的形式输出,可以写入Kafka消息队列或者持久化到文件系统。在系统设计方面,为了开发人员的分工合作和后期扩展到更多的实时计算平台,StreamSQL工具分为四个解耦化的模块。第一个模块是SQL解析模块,使用ANTLR工具完成SQL语句到Java对象的翻译,实现了领域语言到编程语言识别,并解析出执行计划。第二个模块是Stream算子模块,将数据格式和算子功能抽象出来,不依赖于具体的实时计算平台,根据流式数据的查询特点来完成序列化、输入输出和功能算子单元。第三个模块是Storm装配模块,将Storm计算平台提供的编程接口封装,根据执行计划内容,把Stream算子实例注入到spout和bolt实例中,创建拓扑关系,装配出Strom拓扑程序。最后一个模块是JDBC接口,采用服务器客户端设计模式,符合JDBC4.2规范,为Java开发人员提供开发接口。在生产环境中,StreamSQL工具部署在配置了 Storm集群的统一数据管理平台上,作为Kafka集群的消费者和生产者,也可以将数据流持久化到HDFS文件系统,更加灵活便捷地处理消息队列中的数据。业务人员等非程序开发人员可以通过简单的SQL语法培训,来做实时流式数据的查询工作。业务开发人员也可以使用StreamSQL工具完成简单的流式数据的处理工作,避免大量的重复性开发任务。第三方开发人员可以通过使用JBDC驱动,在项目中使用StreamSQL工具。
其他文献
随着社会和计算机技术的发展,特别是计算机网络的广泛普及和快速发展,自然语言处理领域越来越受到计算机工作者的重视。在如此大的环境下,民文信息处理技术应运而生。中央提出的“一带一路”倡议,使民文信息处理技术的发展显得尤为重要,也迎来了难得的机遇和挑战。柯尔克孜语词干与词缀切分系统是许多后续有关柯尔克孜语信息处理工作的重要基础。本研究首次尝试了把柯尔克孜语新闻内容作为语料库对收集好的文本直接进行分词、词
目的:以双侧高频感音神经性听力损失为特征的老年性耳聋,由于其引起的生活质量的下降,已成为一个日益严重的公共卫生问题。本研究旨在探讨老年性耳聋患者海马的定向功能连接的改变,并研究海马定向功能连接改变的原因。方法:招募老年性耳聋患者32名,同期招募40名在年龄、性别及教育程度均无明显统计学差异的正常受试者作为对照组,进行静息态功能磁共振数据采集。采用格兰杰因果关系分析(GCA),对老年性耳聋患者海马种
颗粒包装空包是颗粒厂家在包装环节发生的一种缺陷。随着GMP(Good Manufacturing Practices for Drugs)标准在中国药厂中的不断深入实施,人们逐渐认识到了药物质量的重要性,为保证药物的质量,我们就要对药物生产制造的整个过程实施监督控制[1]。从而对制药包装设备的在线检测提到了一个新的高度来研究。目前,我公司生产的中药调剂设备、颗粒包装等设备中也会因为物料堵塞等原因导
数学建模不仅是数学知识应用能力大考验,更是学生学习数学化的重要途径,所以数学建模对学生高阶数学水平的发展极为重要。在我国高中数学课程标准中也明确规定要把数学建模思想贯穿高中数学学习全过程。乌鲁木齐市是新疆的省会城市,教育水平相对较高,了解该市学生数学建模水平及影响因素有利于评估新疆高中数学建模整体情况。论文研究的问题是:乌鲁木齐市高中数学建模教学现状如何?从师生两方面进行调查。通过对国内外文献资料
习近平总书记在第十三届全国人民代表大会第一次会议上提到要加大保障和改善民生的力度和措施,在现实生活中真正实现全体人民共同富裕。把民生问题的解决和完善落实作为建设社会主义和谐社会的根本目标,强调打造和建设民生中国,需要全体人民共同努力。由此可见,妥善解决好民生问题已经成为我国政府施政的重要内容。社会是由全体人民共同组成的,民生社会的建立除了需要党和政府贯彻落实“以民为本”的政策,还需要社会公民能够具
近年来城市轨道交通在我国取得了迅猛发展,已成为居民出行的重要交通方式。伴随着轨道交通发展,其相应的各种服务技术也在迭代升级。而传统的轨道交通乘客满意度研究主要针对服务结果建立评价指标体系,缺乏对整个服务接触系统的研究。为弥补轨道交通服务接触研究不足,本文从服务接触角度出发,构建基于服务接触的城市轨道交通乘客满意度模型,以期通过该模型对城市轨道交通管理提出相关建议。本文在总结前人研究的基础上,首先,
加热鼓风设备在高炉炼铁生产过程中具有十分重要的地位,热风炉在提供高温热风方面具有重要的作用,它不仅能够提高高炉生产的效率,还能够提高提高产品的质量,降低生产的成本。受传统生产工艺复杂等因素的影响,致使热风炉的调节滞后,难以实现温度的精确控制,因此,在拱顶温度的精确控制方面提高技术水平是当前研究的关键。论文以鞍山宝德的项目为例,主要工作如下:第一,对高炉热风炉的控制技术进行分析的基础上设计热风炉的控
多旋翼无人机以其成本低、结构简单、操作灵活的特点,备受军用和民用两个领域的青睐。高精度的导航系统作为多旋翼无人机的核心装置,是其可靠自主飞行的重要保障。多旋翼无人
随着互联网的快速发展,越来越多的数字图像和照片在互联网络上传播,分享,图像已经成为我们生活中必不可少的部分。图像的特征表示关键是对图像内容的描述,特征表示的好坏直接
本文以某型短距起飞无人机为研究对象,围绕短距起飞过程中的控制问题,系统地开展了无人机滑跑短距起飞建模、滑跑纠偏控制、滑跑稳定性分析及增稳控制、短距起飞及转平飞控制