基于Hadoop的海量工程数据关联规则挖掘方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ylwang8866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高速动车组在我国的快速发展,目前已经积累了海量的历史维护、故障数据,如何利用好数据挖掘技术从历史维护故障数据中挖掘出有效的知识,并且为动车组故障诊断和维护维修提供有效的决策支持,成为一个亟待解决的应用需求。针对动车组历史维护故障数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,对海量工程数据关联规则挖掘方法进行了深入研究。  由于传统的关联规则挖掘算法在处理海量、多维数据集时,在数据挖掘性能上会遇到瓶颈,因此本文选取Hadoop技术作为对频繁模式增长(Frequent PatternGrowth,FP-Growth)算法和Apriori算法进行并行化改进的基本技术。Hadoop是一个开源的分布式计算平台,其核心组成部分是Hadoop分布式文件系统(HadoopDistributed File System,HDFS)和MapReduce并行编程框架,用户可以在不了解Hadoop内部架构的情况下,方便地开发分布式程序。  本文深入研究了现有关联规则挖掘算法的实现形式和不足,结合动车组故障诊断的要求,选取FP-Growth算法和Apriori算法作为动车组海量历史故障数据关联规则挖掘的基本算法。首先提出了利用局部频繁模式树来代替全局频繁模式树的改进的并行FP-Growth算法,该算法在各主要步骤上均实现了并行处理,并且对频繁模式的搜索策略进行了改进。其次,提出了一种改进的并行Apriori多维关联规则挖掘算法,该算法采用迭代的思想,实现了对各阶候选项集挖掘的并行化处理。改进后的算法大大提高了关联规则挖掘的效率,有效地节省了计算空间,挖掘结果很好地保留了故障信息与状态信息之间的关联关系,并且合理去除了无效规则。  本文将改进的关联规则挖掘算法应用于动车组历史运维数据关联规则知识获取中去,并相应设计实现了动车组运维数据处理平台原型系统,包括用户认证模块、数据传输模块、数据挖掘模块和用户文件管理模块等。通过对改进算法的具体分析与实际测试,表明本文提出的两个改进的并行算法在动车组故障诊断知识获取过程中具有快速、高效、准确的特点。
其他文献
地下工程突水大都与岩体断层和裂隙有关。断层、裂隙都有一定的开度及延展性,由此所形成的地层空隙往往会成为导水优势通道。注浆技术作为一项实用性强、适用性广的工程技术,
西气东输二线管道工程是国家特大型重点工程,管道网络分为一条干线和六条支干线,全长8036km。龙岗-西峡支干线为西气东输二线管道工程的支线工程之一,起自四川省仪陇龙岗气田
人体消化道是一个十分复杂的环境,尺蠖爬行方式在小肠环境中有着许多其他运动方式难以比拟的优势,而胃袋相对宽广的空间为机器人自组装提供了可能性。本论文贯彻模块化的设计
滑坡是一种严重的斜坡变形现象,作为一种自然地质灾害,常常会给人们造成巨大的生命财产损失。我国是滑坡灾害多发国家,事先做出预报并采取有效的防范措施是减灾的重要手段。滑坡预报的核心是预报方法与预报判据。预报方法确定以后,如果没有正确的预报判据就无法进行准确的预报。由于预报判据的建立是比较困难的,国内外大量学者研究出了很多种预报判据,且对滑坡做出过成功预报。但是各预报判据都具有一定局限性,且都是不完善很
卫星等航天器在执行空间任务前,必须先在地面进行一种特有的全物理仿真试验,来检验其性能和控制系统的功能。地面全物理仿真试验是通过花岗岩试验台上的气浮仿真模拟系统来模
通过对研究区42个钻孔岩心、测井资料以及煤矿开采揭露资料进行解释和对比,同时结合岩石组合、沉积构造、剖面结构、测井相组合以及华北晚古生代早二叠世地质背景,分析了山西
期刊
泥石流作为一种常见的自然地质灾害,其形成过程十分复杂。具有暴发突然性、时间不确定性、持续时间短、破坏力巨大等特点。尤其在中国的云贵川西南三省,更是泥石流高发、危害性
采空区底板滞后突水因其隐蔽性和突发性,对矿井安全生产危害极大。传统物探方法大都是在开采前的静态探测,且鉴于资料解释精度有限,一些规模较小的隐伏断层、陷落柱等可能无
北川县擂鼓镇凤凰山滑坡为由“5.12”地震诱发的一特大型土质滑坡。本文在对该滑坡进行野外地质调查工作的基础上,总结了该滑坡的地质特征,分析了形成机理;采用极限平衡法、数值
学位