基于Flink的高效日志信息提取平台的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:baobei871011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上各系统以前所未有的速度持续产生着海量的日志数据,如何对海量的文本日志数据进行信息提取已经成为了日志处理领域日益严峻的课题。由于Web应用日益复杂,通常按照功能将应用拆分为多个子服务,使得日志内容被分割成多个日志文件。在对日志信息进行提取时,通常需要将多个日志文件中的数据进行拼接,进而获取完整的日志信息。分布式计算引擎具有优秀的水平拓展能力,相比于传统的信息提取技术更加适用于海量文本日志信息提取的业务场景。Flink作为新一代分布式计算引擎,为实时流数据分析和批量数据处理提供了统一的编程模型和执行引擎。但是Flink在执行多表连接计算时存在一些不足,不能对多表连接作业进行有效优化,导致多表连接作业性能较差。在分布式计算中,虽然已有相关工作用于优化多表连接计算,但是大部分都是基于MapReduce,无法直接应用于Flink。因此有必要深入研究并优化Flink的多表连接作业,提高Flink多表连接作业的执行效率。本文依托现有的研究背景,对平台中的多表连接作业进行了优化,从而可以高效的提取海量日志信息。本文的具体工作内容如下:1.详细介绍了基于Flink的高效日志信息提取平台中涉及到的关键技术。包括Flink分布式计算引擎、分布式表连接算法和已有的多表连接优化算法。2.基于已有的连接顺序优化算法,提出了可以优化Flink多表连接作业执行效率的Multi Bushy Tree算法和用于优化星型连接的Star Semi Join 算法。3.在前面研究的基础上,设计并实现了一个基于Flink的高效日志信息提取平台。
其他文献
随着计算机网络的迅速发展,越来越多的领域受到了数字化的影响,备受关注的医疗领域也进入了数字化的进程。在技术飞速发展的今天,医学信息被用于分享、学习,远程交流与治疗。在人们享受着这种便利的同时,一个严峻的问题正影响着我们,那就是安全的问题。患者的患病信息被进行远程治疗的时候,会担心自己的个人信息暴露。因此,安全性的问题是在这个信息化时代非常紧急的问题。为防止信息泄露,许多学者提出了数字水印等解决方法
在翻译的哲学理论中,本雅明的“纯语言”翻译理论和斯坦纳的阐释学翻译理论长久占据着举足轻重的位置。本文以汉英翻译中的一些实例来阐释这两个理论,并进一步指出两者之间的内
大同煤矿集团临汾宏大豁口煤矿所属地区多旱少雨且水资源匮乏,不适合建设繁杂的原煤水洗分选系统,因此引进波兰生产的CXR-1000X射线原煤分选系统。介绍了CXR-1000X射线原煤分
装备保障训练评估是促进装备保障训练业务持续改进,提高装备保障训练效能的有效手段。建立了对其全程评估的指标体系,构建了基于DAF的评估模型,实例计算结果表明:该方法能够有
2010年4月1日出炉的《2010胡润财富报告》显示,截至2009年底,内地千万富豪人数已达87.5万人,其中,北京有15.1万名千万富豪和9400名亿万富豪,在全国排名第一;广东省有14.5万名
<正>影响项目经济效益的因素很多,原材料和产品价格往往是财务评价的重要参数。能否选用合适、合理的价格进行经济效益分析,直接关系到经济评价质量和投资者的决策。项目经济
会议