论文部分内容阅读
铁路信号设备是铁路信号系统的重要设备,也是铁路行车安全的重要保障。为了确保信号设备运转正常,铁路系统建立了各种安全监测/监控系统,这些监测/监控系统产生了大量以语音、文本、图形图像等形式存储下来的非结构化数据。日常的维护维修中,工作人员通常都以文本的形式描述记录下各种故障原因、故障现象、以及故障处理方式等。久而久之,积压了大量的故障数据,这些故障数据都是以Word、Excel等形式存储,主要包含事故故障发生时的相关记录、事后追踪报告、行车日志等,最终以纸质形式存档。这些丰富的文本数据蕴含着巨大的信息,对铁路信号设备分析具有重大意义。为推动铁路大数据技术发展,运用文本挖掘技术,挖掘出这些故障文本之间的联系以及事故故障发生规律,为铁路行车安全提供一个信息化、智能化的决策平台,实现事故故障的智能分类。本文提出,使用文本挖掘技术对铁路事故故障文本进行分类研究,并取得了以下成果:(1)采用文本挖掘技术对铁路信号设备事故故障文本分析。针对铁路信号设备故障文本大数据,本文对信号设备简单介绍,阐述了目前常用的几种故障诊断方法;并介绍了中文文本处理方法。针对中文文本的特性,为达到更好的分词效果,采用了jieba分词技术,建立铁路领域专业词典,对jieba分词所带词典做简单扩充。针对文本特征表示,本文选用Word2vec的Skip-gram模型,对经过分词后的文本进行训练,形成了每个词的词向量表示形式,最终得到故障文本词向量矩阵,从而提高事故故障文本特征表示的效果。(2)采用一种改进算法处理不平衡文本数据。由于故障类别多样,且数据量各不相同,差异比较大,因此形成了类别数据之间的不平衡。针对故障中的这种不平衡文本数据,本文从数据的角度出发,对SMOTE算法进行改进,用于处理不平衡数据。将样本集进行区域划分,不同区域的样本采用不同的样本处理方法。最后,原始数据、SMOTE算法、Borderline-SMOTE算法、SVM-SMOTE算法以及改进后的TSMOTE算法进行对比,得出本文改进后的TSMOTE算法更能生成质量较好的少数类样本数据集,为接下来的故障文本分类做准备。(3)研究卷积神经网络分类模型,提出采用卷积神经网络模型进行文本分类。随着深度学习近几年的大热,在对文本进行分类时采用卷积神经网络模型以解决机器学习中常忽略的词义之间的联系,训练过程容易陷入局部最优等问题。为使模型有更深层次的识别能力,可以提取到比较全面的信息,不至于把句中次重要的信息忽略,引入注意力机制,优化卷积神经网络模型。在基于TensorFlow的深度学习框架之下进行训练,获得了较小的Loss函数值,使得各类别识别的准确率达到较高水准。最后本文以某铁路局实际事故故障文本数据为例,从不同角度出发,设置了多组对比实验,使用提出的TSMOTE算法处理不平衡数据;采用经过注意力机制改进的卷积神经网络模型进行分组实验。通过与同领域的其他分类模型相对比,得出本文提出的分类模型在分类准确率上有较为明显的提高,在均衡化数据集上,也有了很大的突破,证明本文所做工作对短文本分类研究有一定的贡献。同时,也为实现铁路事故故障分析、推动铁路大数据应用具有一定的影响。