基于文本识别的铁路设备故障信息分类算法研究

来源 :石家庄铁道大学 | 被引量 : 0次 | 上传用户:wosee_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
铁路作为我国交通运输的中坚力量,在国民经济发展和民生中扮演着重要的角色。而安全又是铁路系统有序、平稳运行的前提。随着铁路行业技术日新月异的发展,各种新的设备不断投入到铁路运行中,但是也衍生出新的问题,如:哪些种类的铁路设备故障率较高、如何对不同铁路设备故障进行结构化的描述,如何使用铁路设备故障描述来挖掘其内部的规律。针对上述问题,需要找到一种铁路设备惯性故障文本分类方法,来对海量的铁路故障文本信息进行识别和分类。本文首先对故障文本的源头出发,在文本向量化之前对分词词库进行拓展,从在国家铁路总公司、中铁检验认证中心有限公司等权威网站获取到铁路系统相关的设备名称和质量标准及各站点名称,生成对铁路设备领域的专用词库。结合有铁路专用词库的jieba分词对设备故障描述进行分词和去停词处理,使生成的故障分词文本更加贴近人工处理的效果。在得到分词模型后,采用word2vec算法将分词模型向量化处理,得到可以表征故障文本的词向量;之后通过LDA算法对生成的文本向量特征提取,为后续分类算法的研究提供了数据源。之后对处理后的数据集分别建立决策树、KNN、支持向量机、梯度提升决策树等单一的分类算法模型,并且利用模型的整体正确率、召回率、F1值等指标作为分类效果的评估标准。然后根据集成分类器的集成规则将各单分类器作为stacking集成学习的基分类器,元分类器上使用决策树。由于本文所使用的数据集存在较强的不平衡性,所以使用Borderline-SMOTE算法对数据集中的少数类进行扩充,基于基分类器对于少数类的分类准确率对整体分类准确率的比重,对基分类器进行加权,建立加权stacking集成学习的铁路故障文本分类模型。本文的研究结果证明,针对铁路故障文本信息,建立铁路领域专用分词词库可以有效的表征原文本的语义,其余弦相关度的和皮尔逊相关系数都可以达到近0.9。通过对实验结果的分析,发现采用加权stacking集成学习模型可以有效的提高对于少数类的准确率,不仅相较于单分类器综合性能有着大幅度的提升,相比于传统stacking模型也有各项评估指标的改善。
其他文献
随着生产力的解放和人工智能的兴起,自动导引车越来越被广泛应用于各种自动化程度较高的工作场合。在装配式建筑混凝土预制车间内,自动导引车扮演着运输物料与模具的重要角色。传统的自动导引车的运动柔性较差,难以应对复杂多变的工作场景。本文在无线定位技术的基础上提出了基于超宽带定位的自动导引车的导航方式。首先,针对超宽带定位技术中出现的测距不准的情况,本文采用了改进的双边测距原理对基站和标签间的距离进行预测距
车号识别,是人工智能的一个重要领域。随着铁路客运和货运的高速发展和货运量的迅速增长,货车车号识别在货车位置追踪和货车异常状态检测中有着广泛的应用,是货车安全运营的重要基础。不同于汽车牌照的特点,铁路货车的车牌号没有固定的位置、颜色和字体,而且在喷漆时会出现断裂的情况。此时,传统的图像处理技术用于车辆号码识别往往难以满足性能要求。目前,利用机器学习方法解决车牌号不连续点和不同车型的识别难题的研究很少
随着铁路货运快速增长,手工抄录货运列车车号的作业方式耗时费力,已不能满足现代化铁路运输需求。考虑到列车车号在铁路车辆管理、货车追踪、行车调度中起着重要作用,列车车号识别已成为铁路管理的一项必需工作。然而不同于常见的汽车车牌识别[30],铁路货运列车车号识别需要在列车快速移动场景下完成数据采集,车号识别过程更为复杂。基于此,提出一种面向复杂移动场景下的铁路货运列车车号检测与识别方法,该方法包括车号定
我国铁路运营速度世界第一,拥有世界上最大庞大的铁路网和速度最快的高铁网络。我国列车时速屡创佳绩的同时需要更好的铁路运行环境,高速度对铁路运输的安全性提出了更高的要求,钢轨是铁路系统中不可或缺的组成部分,在所有铁路事故中约有三成的事故是源于钢轨的缺陷,保证钢轨正常运行,检测出钢轨上的缺陷是保证铁路枢纽安全的一个重要工作内容。目前,人工检测、超声波和电磁检测等缺陷检测方法都存有一定的局限性。近年来,机
随着我国经济的发展和科技的进步,拥有汽车的家庭也随之增多,虽为生活提供了更多的便利,但伴随而来的还包括道路拥挤和交通事故,汽车的驾驶安全已成为当下汽车技术发展所面临的一个重中之重的问题。基于双目视觉的环境感知技术在汽车安全驾驶领域中是一个研究热点,本文对基于双目视觉的目标检测与测距进行了深入研究,提出了一种基于深度学习网络GA-Net和YOLOv4的目标检测与测距技术。首先,对摄像机几何成像中用到
土工格栅以其良好的工程特性与成本优势广泛应用于各类加筋土结构中,土工格栅蠕变行为与筋土界面作用机理对加筋土结构的设计及长期服役性能有着重要影响。本文基于室内试验、理论分析和离散元数值模拟,对HDPE单向拉伸塑料土工格栅考虑蠕变与筋土界面作用的土工格栅加筋效应进行了深入研究,主要研究内容与取得的成果如下:(1)土工格栅蠕变行为及损伤本构模型研究。通过进行不同温度和不同荷载水平条件下的土工格栅蠕变试验
火控系统的射击诸元是一种重要检测指标,因此,在火炮的设计、校准以及应用中,都对射击诸元的解算方法的精度有着很高的需求,针对射击诸元中身管指向测量所存在的安装调试复杂、测量精度较低、不适应动态测量等问题,本文研究了基于机器视觉的测量方法,并经过实验证明了方法的实用性和鲁棒性。首先,设计了一种条状标志物作为合作靶标,将标志圆的圆心作为图像特征点,根据身管运动时特征点位置变化映射在图像上的变化,结合相关
轮毂电机电动汽车具有车身内部空间利用率高、可控性好、传动效率高和便于模块化生产等诸多优点,使其将会得到广泛的应用。轮毂电机的引入,非簧载质量明显增加,不仅恶化了汽车的平顺性,还对汽车操纵稳定性带来了影响;轮胎接地性变差影响汽车的安全性,还对轮毂电机造成巨大冲击,加速其疲劳破坏过程。在行驶过程中,由于路面激励扰动及行驶工况的变化汽车极易产生强烈振动,使得汽车动力性得不到充分性发挥,经济性变差,进而影
目的:探讨2型糖尿病病人行白内障超声乳化联合折叠式人工晶体植入术(phaco+IOL)后黄斑水肿的发病率,并分析年龄、性别、糖尿病病程、是否合并糖尿病视网膜病变、术前血糖水平、胰岛素的使用及其他相关因素对术后发生黄斑水肿的影响,以便为未来疾病的管理的发展和及时干预措施的制定提供参考。方法:回顾性分析2017年6月至2020年6月期间于我院眼科进行phaco+IOL的白内障患者的病例资料。其中单纯白
SAR图像目标检测技术广泛应用于现代军事作战侦察和民用地形监测等领域,是各国学者研究的重点,随着神经网络理论和计算机技术的发展,基于深度学习的目标检测算法逐渐成为SAR图像目标检测任务的主流。但是,深层网络通常具有大量参数,其运行不仅需要大量的算力支持,运行速度也不能满足实时要求,因此深层网络检测算法难以在资源受限的设备(如移动端)上部署。本文考虑到对模型实时性和可移植性的要求,对目标检测算法Fa