论文部分内容阅读
信息技术的快速发展,促使煤矿企业积累了大量煤矿数据资源。阅读煤矿数据挖掘相关文献可以发现:当前煤矿数据挖掘对象主要集中在隐患数据、监测数据,而对在线煤矿事故案例的研究较少,造成数据资源的浪费。在线煤矿事故案例作为对事故时间、原因等多个方面总结的非结构化数据,在处理的过程中具有一定的难度。但是,数据内部包含的信息对于煤矿安全生产、安全管理具有重要意义。因此,本论文选取在线煤矿事故案例作为研究对象,构建煤矿事故案例自动分类模型,挖掘煤矿事故案例中包含的信息。本论文为了研究在线煤矿事故案例自动分类方法,对相关理论技术进行研究。常见的文本表示模型为基于统计语言的词袋模型、Tf-idf模型表示方法。W-ord2-vec作为基于神经网络语言的文本表示方法,能够将中文文档中的词语转换成词语向量。为了构建自动分类模型,本论文对Word2vec进行改进,将输出的词语向量转换成文档向量,实现中文文本数据到计算机语言的转换。支持向量机分类器的分类效果受到参数的影响,为了选用最优模型参数构建分类模型,本论文将网格法与支持向量机结合构建cgSVM分类模型,运用cgSVM实现在线煤矿事故案例自动分类。为了研究在线煤矿事故案例自动分类方法,将3种文本表示方法与不同分类器进行结合共构建word-SVM,word-Mul-NB,word-DTC,Tf-idf-SVM,Tf-idf-MulNB,Tf-idf-DTC,Word2vec-SVM,Word2vec-cgSVM8 种文本自动分类模型。比较煤矿监测网以及煤矿安全网网站中与煤矿事故案例相关的内容,爬取煤矿安全网对应的煤矿事故案例作为实验数据验证自动分类模型的性能。从比较模型的预测值与实际值以及性能评价指标值两个方面评价8种模型的分类效果。得出Word2vec-cgSVM模型的预测结果与实际值更加接近的结论,对应的精确率、召回率、fl-score 分别为 0.977、0.976、0.976。通过研究,本论文构建了煤矿事故案例自动分类模型,经过模型性能分析得出构建的Word2vec-cgSVM对在线煤矿事故案例分类的精确率能够达到97.7%。将Word2vec-cgSVM自动分类模型运用到在线煤矿事故案例分类中,能够节约分类的人力、时间,对提高企业的分类效率具有实际意义。对Word2vec和支持向量机进行改进,提出了改进的Word2vec和cgSVM模型,丰富了文本表示和文本分类模型,对后续的中文文本分类研究具有理论意义。图14 表17 参67