基于Hadoop的海量工程数据关联规划挖掘方法研究

来源 :北京交通大学 | 被引量 : 11次 | 上传用户:abc262648312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高速动车组在我国的快速发展,目前已经积累了海量的历史维护、故障数据,如何利用好数据挖掘技术从历史维护故障数据中挖掘出有效的知识,并且为动车组故障诊断和维护维修提供有效的决策支持,成为一个亟待解决的应用需求。针对动车组历史维护故障数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,对海量工程数据关联规则挖掘方法进行了深入研究。由于传统的关联规则挖掘算法在处理海量、多维数据集时,在数据挖掘性能上会遇到瓶颈,因此本文选取Hadoop技术作为对频繁模式增长(Frequent Pattern Growth, FP-Growth)算法和Apriori算法进行并行化改进的基本技术。Hadoop是一个开源的分布式计算平台,其核心组成部分是Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和MapReduce并行编程框架,用户可以在不了解Hadoop内部架构的情况下,方便地开发分布式程序。本文深入研究了现有关联规则挖掘算法的实现形式和不足,结合动车组故障诊断的要求,选取FP-Growth算法和Apriori算法作为动车组海量历史故障数据关联规则挖掘的基本算法。首先提出了利用局部频繁模式树来代替全局频繁模式树的改进的并行FP-Growth算法,该算法在各主要步骤上均实现了并行处理,并且对频繁模式的搜索策略进行了改进。其次,提出了一种改进的并行Apriori多维关联规则挖掘算法,该算法采用迭代的思想,实现了对各阶候选项集挖掘的并行化处理。改进后的算法大大提高了关联规则挖掘的效率,有效地节省了计算空间,挖掘结果很好地保留了故障信息与状态信息之间的关联关系,并且合理去除了无效规则。本文将改进的关联规则挖掘算法应用于动车组历史运维数据关联规则知识获取中去,并相应设计实现了动车组运维数据处理平台原型系统,包括用户认证模块、数据传输模块、数据挖掘模块和用户文件管理模块等。通过对改进算法的具体分析与实际测试,表明本文提出的两个改进的并行算法在动车组故障诊断知识获取过程中具有快速、高效、准确的特点。
其他文献
<正>内蒙古达拉特旗地处鄂尔多斯高原北部,黄河中游南岸,全旗辖8个苏木镇130个行政村,属于半干旱大陆性季风气候类型,全年日照时数平均为3125小时,年平均气温6.8℃,≥10℃有
艺用人体解剖课程的主要目的是对人体骨架、肌肉结构、人体运动规律了解和掌握,是为美术造型服务的一门基础课。但在目前情况下这门课程的教学方法尚不适应美术教学,需要利用数
采用超音速等离子喷涂技术制备了WC/Co涂层,利用扫描电镜、x射线衍射、显微硬度计对涂层的组织结构和硬度进行了表征。结果表明,超音速等离子喷涂层微观组织为多边形WC硬质相分
小额信贷最初的目的是扶贫,后来服务的对象变得更加广泛并逐渐转向商业化。从20世纪70年代开始,小额信贷从无到有,逐渐发展壮大。在经济发展中,小额信贷起到了重要作用。与此
本文试图从《大学英语》课程思政的可行性出发,挖掘本课程思政元素,寻求将思政元素融入《大学英语》课程教学的途径,在传授知识的同时,进行价值引领,最终实现课堂育人,立德树
目的:对无症状脑梗死(Silent brain infarction,SBI)患者新发症状性脑梗死的TOAST病因学分型、危险因素、影像、严重程度等特点进行研究,探讨合并SBI与非SBI的新发脑梗死之间
快速、连续性检测石膏板游离水含量的探讨马宗明哈尔滨市新型建材总厂纸面石膏板是一种以石膏为基材,掺入部分增强纤维和表面粘贴一层护面纸的新建筑材料。在纸面石膏板的生产
文化作为一个国家、一个民族的灵魂,承载着历史、现在与未来,是推动社会永续发展的精神基石。党的十九大报告指出,中国特色社会主义进入新时代,我国社会主要矛盾已经转化为人
不同时代、不同民族风格、不同文化背景的建筑,既是历代劳动人民创造智慧的记录,又是历史沧桑的见证,是全人类共同的文化遗产,中国古建筑木结构是经过选择和考验而建立起来的
我国社会转型期信任危机的成因主要表现为三个方面:关系约束机制失效,信任关系的建立困难重重,而原有的社会关系又受到严重削弱;道德约束机制弱化,一些自律性不强的人利用现