论文部分内容阅读
随着机器学习技术的引入,铁路系统故障管理的信息化水平得到了进一步提高。在目前的铁路故障信息数据中,保存了大量故障文本数据。这些数据记录了故障发生时间,车辆编号,故障所属系统,故障性质,故障后果以及故障描述。其中,由人工记录的故障描述文本详细记录了铁路系统故障发生的情况,蕴含了大量未被发掘的信息,是用于故障分析的重要资源。但文本数据相比其他数据处理更加困难,若用人工分析则需要花费大量时间。针对这一问题,可以使用机器学习方法进行文本挖掘,让计算机快速处理大量的故障文本数据,提高铁路系统故障信息管理的效率和水平。传统的文本挖掘方法存在一定局限性,为了能够高效准确地挖掘出故障文本数据中的语义信息,对文本挖掘技术的进一步改进是十分必要的。如何基于传统文本挖掘方法进行改进,以适应实际问题的需要,正在成为一个研究的热点问题。在深入了解了相关研究的基础上,本文基于机器学习算法提出了一系列对铁路系统故障文本数据进行分析与挖掘的方法,并用实际数据进行验证和评估,为铁路系统故障管理提供决策意见。主要研究内容如下:(1)提出了基于MI-RFE(Mutual Information-Recursive Feature Elimination)特征选择方法的铁路系统故障文本数据分类分析方法,该方法将铁路系统故障文本数据按照故障原因进行分类,分类结果可以用作故障原因诊断。为了避免铁路专业词汇语义的理解错误,建立了专业词汇库,使得中文分词尽可能准确。为了找出合适的文本分类算法,分别使用朴素贝叶斯分类(Naive Bayesian Classifier)、SVM(Support Vector Machine)和KNN(K-Nearest Neighbor)算法进行文本分类,实验结果证明使用三种方法的得到的F1值相近,使用SVM算法可以得到较高的分类准确率。基于传统的MI(Mutual Information)特征选择方法提出了MI-RFE特征选择方法,实验结果证明使用MI-RFE特征提取方法的能够有效提高分类准确率和F1值。(2)针对分类模型无法在无监督情况下训练的问题,提出了基于HCA(hierarchical cluster analysis)+k-means两阶段聚类算法的铁路系统故障文本数据聚类分析方法,为后续的故障分析提供重要的聚类信息,也便于同类型故障处理方案的制定。铁路系统故障文本数据的词向量具有高维性、稀疏性的特点,计算困难且浪费储存空间,针对这一问题,使用主成分分析(Principal Component Analysis,PCA)法对词向量进行降维处理。针对聚类簇数k值不确定的问题,将簇内误差平方和作为聚类簇数k值选取的指标。针对k-means聚类算法受初始聚类中心点影响过大的问题,提出了HCA+k-means两阶段聚类算法,确定了初始聚类中心点选取的合理范围。实验结果证明使用HCA+k-means聚类算法相比原k-means聚类算法,能够有效提高聚类效果。(3)基于LDA(Latent Dirichlet Allocation)主题模型对铁路系统故障文本数据进行主题挖掘与分析。针对主题数k值不确定的问题,提出了基于困惑度进行主题数选取的方法。结合LDA主题模型基于词频统计的特点,使用词频向量进行特征提取,使用变分推断EM(Expectation Maximization)算法对LDA主题模型进行求解,得到了文档-主题矩阵和主题-词汇矩阵。由于文档-主题矩阵并不能直观反映主题的强弱,引入了主题强度作为选取热点主题的指标。通过实验,证明了LDA主题模型应用于铁路系统故障文本数据主题挖掘的有效性,并证明了主题强度能够有效发现热点故障主题,为预防热点故障提供决策依据。