事件流应用的负载特征分析和查询调度

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:zhongqiou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件流是当前兴起的一类具有流数据特点的海量数据处理应用,在网络监控、金融分析、传感器网络等领域中扮演着重要的角色。和传统的事务处理以及科学实验数据处理、web search等其它海量数据处理应用不同,事件流要求海量的短小记录能及时地添加到系统中,并能够对多个用户提供海量数据的查询。作为一种新的应用,应用负载特征分析对于更好地设计系统、改进系统性能和评价系统设计都有着重要的价值。事件流查询需要处理数百GB甚至TB级的数据,查询性能是影响应用系统成败的关键因素。因此根据负载特征来研究有效的查询处理方法具有理论意义和实用价值。   本文以一个网络安全监控应用为基础,给出了一种从系统运行的trace中提取负载特征的方法。设计并实现了一个可扩展的并行查询引擎来提高单个查询的性能。提出了一种通过有效地利用多种资源来提高系统吞吐率的并发查询调度方法。以上工作在一个事件流系统DBroker中进行了实现和实验。本文主要贡献如下:   1.提出了一种合成事件流数据集的方法。该方法把构成事件流数据的高维稀疏空间转化成时间序列并通过聚类得到数据产生规律,然后按需生成数据集。DBroker中的真实数据集的实验结果表明,该方法合成的数据集保留了真实数据集的特征,并能适应不同规模的系统。   2.提出了一种合成事件流查询负载的方法。针对具有高维特征的查询特征向量,该方法用基于参数值分布的信息熵来衡量查询之间的相似程度,并用基于信息熵距离的聚类得到特征查询,以此生成查询集合。对DBroker系统一年的查询日志分析表明,该方法得到的特征负载能反映不同参数的相关性,相对于其它方法,它能更好地反映原始负载的特征。   3.提出一种面向资源的并发查询调度方法。针对事件流查询在执行的不同阶段使用不同类型资源的特点,该方法利用单个查询的资源需求来估计并发时备查询的执行进度,调度资源互补的查询同时执行,以提高系统吞吐率。模拟实验表明,贪心调度算法能大幅度地提升系统吞吐率。在DBroker中设计实现了一种通过监控资源使用对并发查询进行动态调度的算法。TPCR和DBroker统计查询的实验结果表明它能显著提高系统的吞吐率。   4.设计并实现了一个并行查询处理引擎。在DBroker中设计实现了一个并行查询处理引擎QServer,它根据数据分布对SQL语句进行分解,由多个DBMS实现查询并行化。QServer的性能评价结果表明,它具有较好的扩展性。
其他文献
近年来,Internet正由传统意义下的信息发布平台逐渐演变为一种特定形式的开放分布计算环境,越来越多的数据资源、计算资源与应用资源依托Internet成为可被公共访问和获取的网络
学位
资源定位问题是P2P网络应用中存在的主要问题之一,也是当前P2P网络的研究重点。P2P网络在运行的过程中会产生大量的访问日志数据,而数据挖掘技术可以从海量的数据中挖掘出有
地理建模工作是地理学家长期从事的一项基础性研究工作。国内外地理学家从不同研究领域出发,已经建立了大量的、成熟的地理模型,然而,由于地理模型在领域、数据和计算平台上的异
由分布在监测区域的大量传感器节点以无线通信、自组织方式形成的无线传感器网络是一种新型的信息获取网络,它融合传感技术、通信技术以及微机电技术等多项技术,能够实时感知
乳腺癌病理图像癌区域检测是辅助医生进行病理诊断的基础,它的目标是利用计算机技术自动检测和定位病理切片图像中的癌区域。相比于传统病理图像分析方法,近年来基于深度学习的
高校排课管理系统是整个教学管理信息系统最核心的一部分。该子系统主要完成了教学运行中,课程、教师、教室等的有序而合理的管理。它负责每个学期的课程表编排,课表的发布和查
流媒体是指多媒体数据流在网络上一边传输一边播放的一种多媒体通信服务。它涉及计算技术、多媒体压缩技术、存储技术和高速网络技术等。广泛用于远程教育、远程医疗、视频点
学位
随着当今科技的不断进步,嵌入式系统已经在诸多领域得到了应用:从移动电话到交换机、从微波炉到火箭自动推进装置,很多设备中都有嵌入式控制系统。而网络技术的进步,也正促进嵌入
随着Internet技术的迅速发展,基于Web的分布式计算模式已成为软件开发的趋势。越来越多的企业将自己的业务以服务的形式进行提供,并构建跨企业的虚拟组织或虚拟企业以实现大规
这个社会己进入网络化、信息化时代,信息化建设也逐步成为医院加强现代化管理不可缺少的手段和措施,病历信息电子化已成为当今医院进一步发展的必然趋势。目前的医院信息系统