论文部分内容阅读
在列车高速运行过程中,运行故障或隐患的发生与演变若不能被及时检测,可能引发连锁反应,导致列车降速停车等事故;若故障不能被及时的诊断处理,可能导致车毁人亡的灾难性后果。目前高速列车车载诊断系统是基于专家知识进行故障诊断,对于高速列车在运行过程中可能发生的故障,难以实时的进行故障预测和诊断,对于列车长期运行导致元器件老化带来安全隐患的问题,难以对其进行深入系统分析。目前,基于大数据技术对高速列车运行进行故障诊断还是一个空白。针对上述问题,设计开发了一种面向高速列车运行实时故障诊断的大数据系统。该系统可实现高速列车实时故障预警和诊断,保证行车及乘客安全。本文依托国家自然科学基金重大项目课题“基于大数据和知识的高速列车信息控制系统故障建模理论与方法”开展研究,针对目前国内外高速列车故障诊断系统无法对高速列车海量、高频、实时数据进行实时故障诊断的问题,设计了面向高速列车运行实时故障诊断的大数据设计与开发系统。本文的主要研究工作如下:(1)高速列车故障诊断需求。高速列车数据具有明显的大数据特征,即:数据量大、种类繁多、价值密度低、实时性强。但是目前高速列车车载故障诊断系统无法满足针对高速列车海量、高频、实时数据进行实时故障诊断。因此,本文设计了一种面向高速列车运行实时故障诊断的大数据系统。本文从高速列车数据流向的角度,对系统的功能需求进行了详细分析,主要从数据采集需求、数据传输的需求、数据分析的需求和数据存储的需求四个方面对系统进行了分析。(2)根据需求分析对系统进行设计。按照多集群协同的设计原则完成了面向高速列车运行实时故障诊断的大数据系统设计与开发架构的设计。系统采用Lambda架构,包括三个层面:批处理层、实时处理层和服务层。其主要包括以下几个功能模块:数据采集模块、数据传输模块、数据预处理模块、数据批处理分析模块、数据实时处理分析模块、数据存储模块及数据可视化模块。其中,通过构建数据采集集群架构实现将高速列车在运行过程中实时产生的运行数据加载到数据传输模块中,解决了数据的实时采集问题;通过构建分布式消息队列系统实现数据的高效传输,解决了高速列车运行数据传输的实时性问题;通过构建数据预处理工具对高速列车数据进行清洗,解决了高速列车数据缺项和格式不统一的问题;通过部署批处理引擎解决了针对高速列车历史数据故障建模的问题;通过部署实时数据分析引擎解决了针对高速列车运行数据的实时故障分析问题;通过构建分布式数据库实现了大规模高速列车运行数据的存储问题;通过数据可视化工具解决了针对高速列车运行数据分析结果的可视化问题。因此,通过本系统对高速列车运行数据进行实时分析从而实现高速列车在运行过程中的实时故障诊断。(3)依照设计方案,以流程工业综合自动化国家重点实验室工业云平台为基础,采用Java和Scala开发语言、分布式列式数据库HBase、大数据处理框架如Hadoop,Zookeeper,Kafka,Spark,HBase以及可视化工具Tableau Desktop完成了系统的设计与开发。其中,Hadoop集群用来做基础架构,主要利用其分布式文件系统HDFS来存储高速列车产生的海量数据,解决了高速列车在运行过程中产生的大规模数据的存储问题;Zookeeper集群用来做资源调配和集群管理,存储集群的元数据信息,保证了数据在不同节点的强一致性和高可靠性;Kafka集群用来将高速列车采集到的数据进行高效传输,解决了高速列车运行数据传输的实时性问题;Spark集群用来对高速列车的运行数据进行离线分析和实时分析,解决了高速列车运行历史数据的离线分析和实时数据的在线分析问题;HBase集群用来存储高速列车实时产生的数据,解决了海量、高频、实时高速列车运行数据的存储问题;MySQL用来存储高速列车实时数据分析处理的结果,和作为数据可视化模块的数据源;Tableau DeskTop用来将高铁运行数据故障分析处理结果进行可视化,解决了针对高速列车运行数据故障诊断分析结果的可视化问题,可以更好的帮助列车员进行故障定位。本文针对高速列车故障诊断系统设计了一种基于高速列车运行实时故障诊断的大数据系统,创新性的将大数据技术与高速列车运行相结合。充分利用高速列车运行历史数据构建故障诊断模型,对高速列车实时运行数据进行故障诊断,解决了高速列车车载底层控制系统分块各自诊断的问题,可完整还原测量值之间的关系,提高故障诊断的准确率,快速定位诊断故障的原因。该系统结合大数据技术实现了对高速列车在运行过程中产生的海量、高频、实时数据的高效采集、实时传输、离线分析、在线分析、实时存储、数据的可视化及高速列车运行故障的实时预测与诊断,为高铁故障诊断的研究提供了一个新的方向。