基于文本挖掘的铁路信号设备故障分类研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:hahabiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
铁路信号设备是铁路信号系统的重要设备,也是铁路行车安全的重要保障。为了确保信号设备运转正常,铁路系统建立了各种安全监测/监控系统,这些监测/监控系统产生了大量以语音、文本、图形图像等形式存储下来的非结构化数据。日常的维护维修中,工作人员通常都以文本的形式描述记录下各种故障原因、故障现象、以及故障处理方式等。久而久之,积压了大量的故障数据,这些故障数据都是以Word、Excel等形式存储,主要包含事故故障发生时的相关记录、事后追踪报告、行车日志等,最终以纸质形式存档。这些丰富的文本数据蕴含着巨大的信息,对铁路信号设备分析具有重大意义。为推动铁路大数据技术发展,运用文本挖掘技术,挖掘出这些故障文本之间的联系以及事故故障发生规律,为铁路行车安全提供一个信息化、智能化的决策平台,实现事故故障的智能分类。本文提出,使用文本挖掘技术对铁路事故故障文本进行分类研究,并取得了以下成果:(1)采用文本挖掘技术对铁路信号设备事故故障文本分析。针对铁路信号设备故障文本大数据,本文对信号设备简单介绍,阐述了目前常用的几种故障诊断方法;并介绍了中文文本处理方法。针对中文文本的特性,为达到更好的分词效果,采用了jieba分词技术,建立铁路领域专业词典,对jieba分词所带词典做简单扩充。针对文本特征表示,本文选用Word2vec的Skip-gram模型,对经过分词后的文本进行训练,形成了每个词的词向量表示形式,最终得到故障文本词向量矩阵,从而提高事故故障文本特征表示的效果。(2)采用一种改进算法处理不平衡文本数据。由于故障类别多样,且数据量各不相同,差异比较大,因此形成了类别数据之间的不平衡。针对故障中的这种不平衡文本数据,本文从数据的角度出发,对SMOTE算法进行改进,用于处理不平衡数据。将样本集进行区域划分,不同区域的样本采用不同的样本处理方法。最后,原始数据、SMOTE算法、Borderline-SMOTE算法、SVM-SMOTE算法以及改进后的TSMOTE算法进行对比,得出本文改进后的TSMOTE算法更能生成质量较好的少数类样本数据集,为接下来的故障文本分类做准备。(3)研究卷积神经网络分类模型,提出采用卷积神经网络模型进行文本分类。随着深度学习近几年的大热,在对文本进行分类时采用卷积神经网络模型以解决机器学习中常忽略的词义之间的联系,训练过程容易陷入局部最优等问题。为使模型有更深层次的识别能力,可以提取到比较全面的信息,不至于把句中次重要的信息忽略,引入注意力机制,优化卷积神经网络模型。在基于TensorFlow的深度学习框架之下进行训练,获得了较小的Loss函数值,使得各类别识别的准确率达到较高水准。最后本文以某铁路局实际事故故障文本数据为例,从不同角度出发,设置了多组对比实验,使用提出的TSMOTE算法处理不平衡数据;采用经过注意力机制改进的卷积神经网络模型进行分组实验。通过与同领域的其他分类模型相对比,得出本文提出的分类模型在分类准确率上有较为明显的提高,在均衡化数据集上,也有了很大的突破,证明本文所做工作对短文本分类研究有一定的贡献。同时,也为实现铁路事故故障分析、推动铁路大数据应用具有一定的影响。
其他文献
当碰到复杂地层中含有丰富地下水时,稍有不慎就会导致掘进面的不稳定,如何设定合理的支持力以确保隧道施工安全平稳成为核心问题。文章利用分析地下水在复合地层中对掘进面极
通过对规范中常规级配进行优化,拟定出季冻区公路抗裂型水泥稳定碎石级配组成,并由室内试验确定抗裂型水泥稳定碎石的最大干密度和最佳含水率,试验结果表明抗裂型水泥稳定碎
目的研究高暴力所致髋臼复杂性骨折早期进行切开复位、双钢板内固定治疗的可行性及疗效.方法采用髂腹股沟联合入路、直视下整复骨折,双钢板行髂耻弓及髂坐弓固定.结果 28 例
一、基本案例1.工程概况该水电站位于云南红河水系的一个支流上,河流流经云南省景东、镇沅、墨江、普洱、江城、绿春等县,最终流入越南,在越池附近汇入红河。
本课题的研究使学生主体与教师主导随着这些年来科技主题活动的推广和普及,越来越多的学生参与进来.活动激发了学生的科技活动兴趣,改变了学生的学习方式,通过参加科学主题活
目的 探讨掌指骨粉碎性骨折的治疗方法。方法 对21例掌指骨粉碎性骨折采用切开复位、AO微型解剖钢板固定,术后早期功能锻炼。结果 术后随访6~12个月,21例骨折完全愈合。按手外科
目的:研究跟内、外侧皮神经支的体表定位及其与足跟痛的关系.方法:解剖20例足踝部尸体标本,分别以内、外踝尖水平线以及内、外踝尖与跟骨结节连线观测跟内、外侧皮神经支的体
性质:如图1,已知椭圆Γ:x^2/a^2+y^2/b^2=1(a>b>0),点P(t,0)(|t|<a),过点P的动弦交椭圆于A、B两点,Q为平面上一点,Q4、QB、QP的斜率分别为k1、k2、k0,且k1+k2=2k0,k1≠k2,则Q
考虑主梁为预应力简支箱梁、桥面连续,并且原设计球冠式橡胶支座存在问题较多,与现行《公路桥梁板式橡胶支座规格系列》中板式橡胶支座不符、梁底钢板尺寸与支座垫石之间高度
每周1~2次的外业巡查获得的病害数据,由于完整性与精细度的缺失,难以支持病害演化分析、风险排序与养护资源调配。文章首次提出以病害时空演化规律分析为核心的路面日常养护