基于机器学习自然语言处理的兰新高铁信号设备故障诊断

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:baolm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
兰新高速铁路又称兰新高铁或兰新客运专线,是推进国家“一带一路”战略的重要助力之一,但由于途径地区地理环境复杂,气候环境多变,导致沿线信号设备易出现各类故障,严重影响线路的安全高效运营。在长期的运营维护过程中,电务部门通过自然语言的形式记载了大量非结构化的故障文本信息,其中包含了各类相关故障的发生时间、发生地点、故障表现、故障类别以及故障后续处理方法等重要信息。而长期以来,维修人员在处理现场故障时,多依据个人经验以及专家知识,通过人工的方法对故障进行诊断,并未对相应的故障数据加以有效的分析与利用,无法对蕴含其中的巨大价值进行挖掘。因此,为了响应国家大数据发展战略,推进大数据在铁路安全领域的应用,研究一种能够有效利用故障记录文本提高信号设备故障诊断效率、提升线路运输安全保障的故障诊断方法具有十分重要的意义。首先,根据目前我国铁路信号设备故障记录多为非结构化的中文短文本形式,其中包含着大量铁路信号的专业词汇,并且夹杂着数字、字母以及一些特殊符号,在传统的人工故障诊断方式下,并不能得到有效的分析与利用,本文采用数据挖掘寻找高频词结合铁路信号领域专业词汇的方式,构建铁路信号领域故障词库;在此基础上采用基于HMM(Hidden Markov Model,隐马尔科夫模型)的Jieba中文分词技术对故障文本进行分词处理,并去除停用词。由结果可知,在采用自定义铁路信号领域词库后,有效的解决了中文分词处理过程中容易出现的错分与不分的问题,为后续特征提取工作提供保障。然后,采用VSM(Vector Space Model,向量空间模型)的方法,将分词后的故障信息转化到词项特征空间上,为了针对传统词项特征方法对文本隐含语义联系考虑不足的问题,本文采用LDA(Latent Dirichlet Allocation,隐狄利克雷分布)主题模型的方法对铁路信号设备故障记录进行特征提取,通过多次试验的方式选择合适的主题数后,以不同主题对应相应词项的形式将原有故障信息转化到主题特征空间上,使语义与词项特征相关联,同时降低故障数据的维度,便于后续进行故障诊断。最后,通过对兰新高铁信号设备故障数据的统计,发现故障样本存在着分布并不均衡的问题。因此本文采用机器学习分类算法与自然语言处理(Natural Language Processing,NLP)的方法相结合对故障进行诊断,通过对比传统空间向量模型与主题空间模型分别结合支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes,NB)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forests,RF)、K-最邻近(K-Nearest Neighbor,KNN)等多种机器学习分类算法对故障分类器进行训练。在此基础上以兰新高铁信号设备故障文本数据进行实验分析,并通过对比不同组合Precision(精确率)、Recall(召回率)以及F1-measure(F1值)三项指标的方法,对提出方法的有效性进行验证;实验表明,结合LDA主题模型后SVM分类算法的准确率可以达到0.84,验证了利用自然语言处理的方法能够有效地对电务部门长期记载的故障文本数据加以利用,以实现信号设备的故障诊断,对现场信号设备的维护具有一定的指导意义。
其他文献
随着我国高速铁路的快速发展,在中国列车运行控制系统(ChineseControl Train)3-CTCSSystem,基础上增加自动驾驶ATO)Operation,Train(Automatic功能的C3+ATO系统是高速铁路向高质量智能化、高程度自动化迈进的一个重要节点,它也成为智能高铁的发展趋势。在此背景下,C3+ATO系统车载设备作为保障列车运行安全,实现列车自动驾驶的核心技术装备,若其发
学位
目的通过整理胃癌根治术后患者的临床病理资料,探究引起胃癌根治术后复发的危险因素,建立复发预测模型,同时进行预后分析,旨在为胃癌根治术后患者的个体化治疗及随访提供依据。方法采用回顾性研究方法,收集2017年3月1日至2020年3月31日在兰州大学第一医院肿瘤外科行胃癌根治术的患者的临床病理资料,通过病历记录及电话随访明确患者有无复发,根据复发与否进行分组。用二元logistic回归对各临床病理特征进
学位
目的:本研究就新辅助化疗后行腹腔镜胃癌根治术(LAG)与开腹胃癌根治术(OG)的患者术后并发症及中位生存期进行比较,评估新辅助化疗后腹腔镜胃癌根治术在局部进展期胃癌治疗中的安全性及疗效。方法:回顾性分析兰州大学第一医院2017年1月-2020年12月间收治的接受新辅助化疗后行胃癌根治术的局部进展期胃癌患者154例,其中腹腔镜下胃癌根治术52例,开腹胃癌根治术102例。研究首先对两组患者年龄、性别、
学位
目的:研究TRIM59在肝细胞癌(Hepatocellular carcinoma,HCC)中对细胞增殖和免疫浸润的影响及其临床意义。方法:(1)基于The Cancer Genome Atlas(TCGA)数据库中的33种肿瘤,分析TRIM59在泛癌中的表达情况和临床意义。(2)利用TCGA-LIHC(Liver hepatocellular carcinoma)、GTEx、GSE25097数据
学位
铁路作为交通运输领域的一支主干力量,无论是在物流运输,还是旅客发送等方面,一直以安全、高效、便捷、经济等优势在运输行业占据着重要的地位。近年来,我国高速铁路迅猛发展,提高铁路运输效率,拉动区域经济发展,改善社会民生品质。随着高速铁路的建设规模和运营里程的持续增加,对其服务质量也提出更高的需求,在保证安全的条件下,需要满足精准停车、准时、舒适、节能等目标。为了铁路服务与经济社会发展相适应,开展高速列
学位
随着城市人口数量的不断增长,城市轨道交通由于其载客量大、便利、准时、安全等优点逐渐成为大中型城市居民出行的首选交通工具。而城市轨道交通的核心系统—基于通信的列车控制(Communication Based Train Control,CBTC)系统,在传输带宽和传输效率方面也面临着更加尖锐的问题与挑战,为增大和提高车地无线通信的带宽和效率,引入时分长期演进(Time Division Long T
学位
背景:自身免疫性肝炎(autoimmune hepatitis,AIH)是一种慢性自身免疫性肝病,其发病机制尚未完全阐明,但目前已有的研究表明,抑炎性调节性T细胞(regulatory T cell,Treg)的免疫调节功能受损以及致病性辅助性T细胞17(T helper cell 17,Th17)的分化增加在AIH的发生发展过程中起着核心作用,并且与疾病严重程度密切相关。因此,增加Treg细胞的
学位
列车运行控制系统是保障列车安全、高效运行的核心。其中,应答器传输系统是列车运行控制系统中重要的组成部分,设置于轨道中间用于向运行中的列车发送线路基本参数信息、线路速度信息、临时限速信息以及定位信息等,因此应答器在保障列车安全运行工作中发挥着举足轻重的作用。有源应答器与轨旁电子单元依靠专用数据传输线缆进行通信,为提高应答器控制接口的信号传输质量,保障列控安全信息的可靠传输,本文通过分析线缆的传输特性
学位
第一章心力衰竭合并认知功能障碍住院患者的临床特点目的分析心力衰竭(HF)合并认知功能障碍住院患者的临床特点。方法采用横断面研究方法,以兰州大学第二医院心内科2020年10月至2021年6月期间确诊为HF的88例住院患者为研究对象,收集患者姓名、性别、年龄、病程、合并症、实验室指标、心脏彩超等临床资料。使用蒙特利尔认知评估量表(MoCA)进行认知功能评估。数据进行统计学分析,P<0.05为差异有统计
学位
目的:建立1-甲基-4-苯基-1,2,3,6-四氢吡啶(1-methyl-4-phenyl-1,2,3,6-tetrahydoyndine,MPTP)诱导的帕金森病(Parkinson’s disease,PD)模型小鼠,探讨丹酚酸B(Salvianolic acid B,SalB)通过对肠-脑轴途径对的MPTP诱导的PD模型小鼠的神经保护作用及机制。方法:采用C57BL/6成年雄性小鼠腹腔注射M
学位