基于机器学习的铁路系统故障文本数据分析挖掘方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:11-Jun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习技术的引入,铁路系统故障管理的信息化水平得到了进一步提高。在目前的铁路故障信息数据中,保存了大量故障文本数据。这些数据记录了故障发生时间,车辆编号,故障所属系统,故障性质,故障后果以及故障描述。其中,由人工记录的故障描述文本详细记录了铁路系统故障发生的情况,蕴含了大量未被发掘的信息,是用于故障分析的重要资源。但文本数据相比其他数据处理更加困难,若用人工分析则需要花费大量时间。针对这一问题,可以使用机器学习方法进行文本挖掘,让计算机快速处理大量的故障文本数据,提高铁路系统故障信息管理的效率和水平。传统的文本挖掘方法存在一定局限性,为了能够高效准确地挖掘出故障文本数据中的语义信息,对文本挖掘技术的进一步改进是十分必要的。如何基于传统文本挖掘方法进行改进,以适应实际问题的需要,正在成为一个研究的热点问题。在深入了解了相关研究的基础上,本文基于机器学习算法提出了一系列对铁路系统故障文本数据进行分析与挖掘的方法,并用实际数据进行验证和评估,为铁路系统故障管理提供决策意见。主要研究内容如下:(1)提出了基于MI-RFE(Mutual Information-Recursive Feature Elimination)特征选择方法的铁路系统故障文本数据分类分析方法,该方法将铁路系统故障文本数据按照故障原因进行分类,分类结果可以用作故障原因诊断。为了避免铁路专业词汇语义的理解错误,建立了专业词汇库,使得中文分词尽可能准确。为了找出合适的文本分类算法,分别使用朴素贝叶斯分类(Naive Bayesian Classifier)、SVM(Support Vector Machine)和KNN(K-Nearest Neighbor)算法进行文本分类,实验结果证明使用三种方法的得到的F1值相近,使用SVM算法可以得到较高的分类准确率。基于传统的MI(Mutual Information)特征选择方法提出了MI-RFE特征选择方法,实验结果证明使用MI-RFE特征提取方法的能够有效提高分类准确率和F1值。(2)针对分类模型无法在无监督情况下训练的问题,提出了基于HCA(hierarchical cluster analysis)+k-means两阶段聚类算法的铁路系统故障文本数据聚类分析方法,为后续的故障分析提供重要的聚类信息,也便于同类型故障处理方案的制定。铁路系统故障文本数据的词向量具有高维性、稀疏性的特点,计算困难且浪费储存空间,针对这一问题,使用主成分分析(Principal Component Analysis,PCA)法对词向量进行降维处理。针对聚类簇数k值不确定的问题,将簇内误差平方和作为聚类簇数k值选取的指标。针对k-means聚类算法受初始聚类中心点影响过大的问题,提出了HCA+k-means两阶段聚类算法,确定了初始聚类中心点选取的合理范围。实验结果证明使用HCA+k-means聚类算法相比原k-means聚类算法,能够有效提高聚类效果。(3)基于LDA(Latent Dirichlet Allocation)主题模型对铁路系统故障文本数据进行主题挖掘与分析。针对主题数k值不确定的问题,提出了基于困惑度进行主题数选取的方法。结合LDA主题模型基于词频统计的特点,使用词频向量进行特征提取,使用变分推断EM(Expectation Maximization)算法对LDA主题模型进行求解,得到了文档-主题矩阵和主题-词汇矩阵。由于文档-主题矩阵并不能直观反映主题的强弱,引入了主题强度作为选取热点主题的指标。通过实验,证明了LDA主题模型应用于铁路系统故障文本数据主题挖掘的有效性,并证明了主题强度能够有效发现热点故障主题,为预防热点故障提供决策依据。
其他文献
图书馆可持续发展是图书馆自身发展的需要,是社会赋予图书馆的新任务。本文分析了图书馆可持续发展的必要性,提出了图书馆在新形势下实现可持续发展的策略。
本文介绍无针注射器的结构特点、动力源及发展前景,重点叙述了无针器的注射机理。注射机理从药液注射过程、影响注射完成率的因素两个方面阐述;前景展望从无针注射器现存的弊端
儿童教育是千家万户所关注的共同话题,从人类诞生开始,对下一代的教育问题就被提出,尽管原始人类的子女教育停留在基本生活技能的传递之上,但家庭教育远早于学校教育就已经产生,私学和学校的产生使子女教育的中心由家庭外移到社会,尤其在工业革命之后,社会对专业人才的需求催生了学校“班级授课制”的形成,从知识传授的角度而言,学校的功能和重要程度远超越家庭。,但是,儿童的性格形成和人格建构更多是受家庭所在的“微系
《中等职业学校英语课程标准(2020年版)》中强调了培养学生跨文化理解的重要性,要求在语言学习中融入中外优秀文化的学习,客观了解中外文化,增强文化自信,促进文化传播。多年来,研究者围绕英语教学和文化教学展开研究,证实了文化在语言学习过程中起着至关重要的作用,一节关注英语文化教学的课堂,不仅可以活跃课堂气氛,而且能够激发英语学习兴趣。然而,在中职学校,部分教师仍采用传统的教授方式,按读单词、讲语法、
Pierre Robin综合征又称Pierre Robin序列征和Robin缺陷[1],1923年由法国口腔医生Pierre等首次报道[2],发病率为1/3 000~1/50 000,是一种由胚胎发育(6周~12周)障碍引起的常染
2017年6月21日,中国电器工业协会标准化工作委员会在苏州召开中国电器工业协会标准化工作委员会三届二次会员大会暨2017年电器工业标准化工作会议。原机械工业部副部长陆燕荪
随着我国经济的发展,对货车的需求越来越大。多轴汽车作为承重能力良好的货车,是改善我国货物运输的强力工具。本次研究依据阿克曼转角的几何原理与前轮定位参数的变化规律使用
目的:探究重组人脑利钠肽联合小剂量多巴胺治疗对急性心肌梗死合并泵功能不全患者急性期疗效及近期预后影响。方法:选取2017年1月-2019年12月本院收治的70例急性心肌梗死合并
人的不安全行为和物的不安全状态是引发建筑施工安全事故的直接原因,其中人的不安全行为占主导作用。识别工人不安全行为表现及其影响因素规律,是采取针对性安全管理措施的前