基于Spark的电信网络告警大数据关联规则算法研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:HDGKD30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电信网络告警数据是网络管理人员监控和管理网络设备的重要依据,分析电信网络告警数据不仅能够得到实时的网络状况,还能通过关联规则等数据挖掘手段得出相关性知识,协助网络管理人员更好的管理和维护网络设备。但是电信网络告警数据数据已进入“大数据时代”,普通的数据分析和关联规则数据挖掘手段已经不能满足要求,需要结合分布式计算等大数据处理工具并将算法进行改进和优化来挖掘出电信网络告警数据的价供值。本论文以中国移动的电信网络告警分析系统项目为依托,提出了一种基于Spark的电信网络告警数据关联规则算法。为了完成此项目课题,本文主要完成了以下几项工作:1.深入研究了 Hadoop、Spark等大数据处理工具,经过对比分析最终选择以Spark为分析计算框架。深入研究了关联规则算法,对比分析经典算法Apriori和FP-Growth,最终选择以效率更高,更适合本文的电信网络告警数据场景的FP-Growth作为基础算法进行改进。2.根据中国移动的需求,设计了基于Spark电信网络告警数据分析系统,系统分为采集模块、存储模块、分析模块、展示模块,并实现了告警数据存储模块和告警分析模块。3.分析和研究了中国移动提供的电信网络告警数据,针对电信网络告警的特点和Spark编程模型的特点设计了以高置信度、高提升度为过滤条件,自动修正支持度计数的电信网络告警分布式关联规则算法—FP-CUD。4.独立搭建了 Hadoop和Spark集群,来验证FP-CUD算法和实现电信网络告警分析系统。结果表明,与FP-Growth算法只能挖掘频繁项集的强关联规则相比,FP-CUD算法能够准确的挖掘出频繁项集和非频繁项集的强关联规则。同时,基于Spark的FP-CUD算法在性能上比采用同样方法的单机模式和Hadoop模式均有很大提升。另外,实现的电信网络告警分析系统给出了抛弃和利用“脏数据”两方面的统计指标,为运营商提供了参考价值。
其他文献
经济适用房在我国已经实行十余年了,作为一项重要的民生工程,其在改善我国居民居住条件上起到了非常重要的作用,效果非常显著。但在如何完善经济适用房的准入、退出和管理机
烟墩堡遗址位于三峡地区重庆市丰都县 ,地处长江干流的第四级阶地 ,出土 130 0余件石制品。遗址底部的似网纹红土层是石制品的原生层位 ;上部的粘土层和粉砂层是流水等从高处
目的评估急性白血病患儿照顾者的生存质量状况,分析其影响因素。方法运用生存质量测定量表简表对238名患儿照顾者进行现况调查,采用多元逐步回归分析其影响因素。结果急性白
词义猜测研究是二语习得领域的重要课题之一。对20年来国内外词义猜测研究进行综述,梳理其发展历史、术语界定、研究范围(知识来源分类、推理策略分类和相关影响因素在词义猜
为应对因碳排放增加而造成的全球变暖问题,中国农业的应对措施和未来发展方向就是要大力发展低碳农业生产。以低碳农业发展为主线,按照逻辑顺序梳理和分析了研究和发展低碳农
目的探索三甲医院低年资护士的培训模式。方法改进传统培训模式,按护士层级设计了"三三三"培训模式,分类培训。结果 "三三三"培训模式的应用,给低年资护士树立了明确的近、中
如何使高职学生在学习高职数学这门基础课程时轻装上阵,游刃有余?笔者从事数学教学多年,现在结合本院高职数学课程改革的基础上,以极限计算方法为例对高等数学、初等数学教学
随着网络经济在全球的逐步发展壮大,各种大大小小的赚钱网站也越来越多地出现在我们面前,在这个虚拟的互联网上,既孕育着无限的商机,同时也潜伏着这样那样的陷阱:"轻松赚钱的
该文分析了美国“双流向多层次教育安置模式”的特点,并在对这一模式进行批判性分析的基础之上阐述了全纳教育的基本观点以及西方特殊教育发展模式的主要变迁。然后,作者对我
近年来,由于高考语文散文阅读考查的频率越来越高,而大部分学生这方面的得分率相对偏低,寻找散文阅读的解题策略迫在眉睫。基于此,本文就高考语文中散文阅读的解题策略提出了