论文部分内容阅读
随着网络信息化技术快速发展和煤矿机械设备日趋大型化、复杂化,煤矿设备的运行数据规模不断地扩展,数据量从GB级迈向TB级甚至PB级,而且数据的差异性也越来越大。对于这种煤矿设备的海量异构数据,传统的数据分析处理系统已经不能满足数据处理和深度挖掘的需求,云计算技术可以高效地实现对这些问题处理。针对现有煤矿机械设备系统的实际情况和需求,分析云计算技术在工业化生产中广泛有效的应用,建立了基于Hadoop平台的煤矿设备数据处理系统,利用平台的海量存储HDFS和分布式计算Mapreduce技术,实现对这些海量级数据的处理、分析和深度挖掘。首先,针对煤矿设备海量异构格式的数据需要规范化描述问题,设计了用XML数据格式做为多样化海量数据的一种应用标准,分析元数据抽取和关系—映射模型技术,实现对煤矿设备异构数据的规范化描述。其次,在实验室环境下搭建了Linux集群和Hadoop集群的平台,建立基于Hadoop的煤矿设备系统数据处理系统,并对平台所用到HDFS技术和分布式计算Mapreduce技术进行了详细分析,实现对煤矿设备数据的海量存储和高效计算。最后,在Hadoop平台上建立对煤矿设备振动数据进行特征值提取和异常点清洗的整体架构,并提出了相应的Mapreduce算法,可以有效地实现对煤矿机械设备振动数据的处理。通过利用该系统平台对设备数据进行HDFS的读写和Mapreduce处理等性能测试,结果表明,Hadoop平台系统能够正常高效运行。因此,基于Hadoop的煤矿设备数据处理系统能够为煤矿设备维护提供很好的技术支持。