论文部分内容阅读
近年来,随着高速动车组在我国的快速发展,目前已经积累了海量的历史维护、故障数据,如何利用好数据挖掘技术从历史维护故障数据中挖掘出有效的知识,并且为动车组故障诊断和维护维修提供有效的决策支持,成为一个亟待解决的应用需求。针对动车组历史维护故障数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,对海量工程数据关联规则挖掘方法进行了深入研究。由于传统的关联规则挖掘算法在处理海量、多维数据集时,在数据挖掘性能上会遇到瓶颈,因此本文选取Hadoop技术作为对频繁模式增长(Frequent Pattern Growth, FP-Growth)算法和Apriori算法进行并行化改进的基本技术。Hadoop是一个开源的分布式计算平台,其核心组成部分是Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和MapReduce并行编程框架,用户可以在不了解Hadoop内部架构的情况下,方便地开发分布式程序。本文深入研究了现有关联规则挖掘算法的实现形式和不足,结合动车组故障诊断的要求,选取FP-Growth算法和Apriori算法作为动车组海量历史故障数据关联规则挖掘的基本算法。首先提出了利用局部频繁模式树来代替全局频繁模式树的改进的并行FP-Growth算法,该算法在各主要步骤上均实现了并行处理,并且对频繁模式的搜索策略进行了改进。其次,提出了一种改进的并行Apriori多维关联规则挖掘算法,该算法采用迭代的思想,实现了对各阶候选项集挖掘的并行化处理。改进后的算法大大提高了关联规则挖掘的效率,有效地节省了计算空间,挖掘结果很好地保留了故障信息与状态信息之间的关联关系,并且合理去除了无效规则。本文将改进的关联规则挖掘算法应用于动车组历史运维数据关联规则知识获取中去,并相应设计实现了动车组运维数据处理平台原型系统,包括用户认证模块、数据传输模块、数据挖掘模块和用户文件管理模块等。通过对改进算法的具体分析与实际测试,表明本文提出的两个改进的并行算法在动车组故障诊断知识获取过程中具有快速、高效、准确的特点。