适应元组分布倾斜的分布式日志流处理关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：qyc88107

【摘要】

：

日志来源于用户上网行为、应用系统、操作系统、网络设备等，具有体量大、异构、价值密度低的特点。日志系统在各种应用系统中均作为基础组件存在，产生的日志数据蕴含着丰富的内

【作者】

：

赵静芬

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

日志流数据处理任务调度流划分策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

日志来源于用户上网行为、应用系统、操作系统、网络设备等，具有体量大、异构、价值密度低的特点。日志系统在各种应用系统中均作为基础组件存在，产生的日志数据蕴含着丰富的内涵和价值，是学术研究、商业开发的重要数据源。日志的存在形式有两种:日志文件中的日志记录和日志流。日志流的无限性及其巨大的数据量导致传统单一节点的集中式处理方式已无法应对大数据时代的日志流分析，构建分布式日志流处理系统成为必然趋势。同时，日志分析对时效性要求很高，所以实时计算框架是日志流处理系统中不可或缺的重要组成部分。开源分布式实时流处理系统Storm是目前被广泛应用的一种实时计算框架，具有高性能、可扩展以及易用性等优势。但在对Storm的应用及研究中发现，它默认的调度器和提供的数据流分组方法会导致工作节点负载不均衡、集群性能不佳等问题。所以，设计实现一种应用于流处理系统的任务调度机制和适应元组分布倾斜的流划分策略具有重要的研究价值和意义。本文完成了以下三方面的工作。　　针对分布式流处理系统中当输入数据的键值呈现倾斜分布时工作节点负载不均衡的问题，提出一种适应元组分布倾斜的流划分策略。该策略使用lossy counting算法计算键值出现的频率，以区分热键和非热键，同时，在数据源节点上维护一个多维向量，记录每个工作节点的负载信息。当一个流元组到达后，依据其键值选择若干个候选工作节点，并查询负载向量表，把该元组发送至当前负载最小的节点进行处理。实验表明，与按键值划分的策略相比，该算法具有更好的负载均衡性，使系统的吞吐量提升40％，与随机划分相比，内存开销降低55％。　　针对Storm使用的默认调度器采用轮询机制进行作业分配，未考虑工作节点的负载信息以及task之间的通信模型，影响数据处理延迟、系统吞吐量等性能指标的问题，提出一种高效的任务调度算法。算法的核心思想是:首先根据应用的负载计算该拓扑需要使用的工作节点个数，之后采用两阶段图划分算法把task分发至相应的工作节点，确保通信频繁的task在同一个工作节点的同一个JVM进程中进行计算，减少了进程间、节点间的通信开销。相比于默认的调度算法，元组的平均处理延时降低了20％。　　设计实现了一个分布式日志流处理系统，主要包括日志采集模块、日志传输模块和日志统计模块。该系统支持多源日志采集、近实时的在线统计和海量日志的离线统计，具备高可靠、可扩展、高性能、负载均衡等特性。

其他文献

IFS通用参数控制系统与电信计费帐务系统的设计与实现

辽宁通信运营支撑系统经过多年的建设,建立起了比较全面的各专业计算机管理系统:计费系统、九七系统、专业网管系统、专业资源系统、客服系统.这些已建成的系统在辽宁通信的

学位

分形迭代函数系统面向对象Java综合服务提供平台

静态挖掘中的异常数据分析

数据采集和存储技术的进步导致人们拥有数据的能力急剧提高并且已经捌有的大量数据还在不断地呈指数级的速度增长.隐藏在这些数据之后的更重要的信息是关于这些数据的整体特

学位

静态挖掘组件级协同聚焦异常数据水电仿真

生物序列数据库中序列相似性查询技术的研究

随着基因测序技术和人类基因组计划的发展,人们积累了越来越多的生物序列信息.如何分析这些生物序列,从中找到人类和其它生物的遗传规律,并提取有价值的知识,是目前人们面临

学位

序列相似性查询范围查询编辑距离生物信息学

基于CMM的软件过程度量的研究与实践

随着经济全球化的发展,越来越多的软件组织发现竞争越来越激烈.因此,需要寻找到一个提高产品质量,增加竞争力的办法.于是,开始采用了一种由爱德华·戴明提出的管理方法,这种

学位

过程度量统计过程控制CMM

反射的分布式元对象协议（MOP）的设计与实现

软件设计在传统上遵循“黑箱”（black-box）抽象的原则，即一个模块应该呈现其功能而隐藏其本身的实现，这一点已成为处理计算机领域中许多重要问题，如可移植性、可重用性等的基本对

学位

结构/行为反射元对象协议元层体系分布式计算

中文社交网络变体词的规范化研究

社交网络中的文本具有随意性和非正规性等特点，其中一种常见现象是变体词在社交网络中大量存在。人们往往为了避免审查、表达情感、娱乐等将原来的词用变体词替代，替换成相对不

学位

中文社交网络文本信息变体词规范化处理

基于UDDI的服务查找方法的研究

随着Internet的发展,基于Internet的B2B电子商务也不断发展.Internet为各种实体提供了前所未有的机会,使他们利用Internet获得了空前的经济回报,体现了Internet的巨大价值.然

学位

服务查找电子商务Web服务合成语义信息UDDIOntologyAgents虚拟企业

基于RTEMS的嵌入式Internet技术的研究与实现

随着Internet的发展,越来越多的嵌入式产品能够连入互联网.通过为现有嵌入式系统增加Internet接入能力来扩展其功能,这就产生了嵌入式Internet技术.嵌入式Internet技术涉及的

学位

嵌入式系统实时操作系统以太网通信TCP/IP

基于PC机群系统的序列比对并行FastLSA算法研究

序列比对是生物信息学中一个基本的问题。在序列比对中广泛使用的三种算法有Needleman-Wunsch算法、Hirschberg算法和FastLSA算法，而FastLSA算法是这三种算法中效率最高的算法

学位

并行算法序列比对时间和空间复杂度PC机群系统

基于CORBA/IIOP的MIME邮件过滤器的研究与设计

针对目前电子邮件系统中垃圾、反动邮件所引起的安全性问题,提出一种邮件过滤系统的模型。该模型采用CORBA/IIOP体系结构,在服务器端进行基于地址、基于内容的邮件过滤,其中

学位

CORBA技术基于地址与内容的过滤潜在语义索引算法用户个性词典

适应元组分布倾斜的分布式日志流处理关键技术研究

与本文相关的学术论文