论文部分内容阅读
建筑安全研究虽然成果丰富,但是建筑安全事故依旧频发。当前对建筑安全事故案例分析的研究还是主要依赖专家评估,具有研究效率低、不够智能化且研究结果容易受主观性影响的缺点。时至今日,存在大量的包含建筑安全事故案例信息的建筑安全事故调查报告,其中包含的大量领域专家知识和经验信息未能得到充分重用。在此背景下,针对当前对于建筑安全事故案例研究方法的缺点,提出基于文本挖掘的方法来对建筑安全事故的不安全因素进行分析挖掘。通过基于互信息和邻接熵的领域词发现算法对建筑安全事故调查报告中的原因分析部分进行挖掘分析,得到了538个建筑安全事故不安全因素关键词。为了解决传统的建筑安全事故预测方法没有充分融合领域知识的问题,提出了基于建筑安全事故本体知识结合TextCNN(Convolutional Neural Networks for Sentence Classification)文本卷积神经网络模型的建筑安全事故预测方法。通过对不安全因素之间以及不安全因素与建筑安全事故类型之间相关性的分析,结合建筑安全领域规范和文献等知识,构建了建筑安全事故的不安全因素本体库。接着通过TransH(Translating on Hyperplanes)基于超平面的翻译模型将建筑安全事故本体库中不安全因素的概念知识向量化表示后,得到了不安全因素的概念知识向量。通过与朴素贝叶斯、支持向量机、逻辑回归、随机森林和多层感知机等五种传统机器学习模型分别在One-Hot独热编码表示的数据集、词向量表示的数据集以及融合建筑安全本体概念的向量数据集三种数据集上进行训练预测的结果对比,表明本文提出的包含建筑安全事故本体知识的不安全因素向量结合TextCNN模型预测方法在正确率、精度、F1值和AUC值均有所提高。本文首先介绍了建筑安全事故频发的现状和研究意义。在对建筑安全事故研究现状和本体的应用研究现状的分析总结后发现,现有的建筑安全事故案例研究方法具有效率低、智能化水平不高等缺点。结合目前存在的大量相关领域知识未被有效重用等问题,以及本体在各个行业领域的广泛有效运用的背景下,提出了将本体技术运用在建筑安全事故预测领域。然后介绍了本文的研究的主要内容和研究思路。接着介绍了事故致因理论以及本文实验涉及的文本挖掘、爬虫、本体构建、TransH模型、分类模型等相关技术,并展示了本文的研究技术路线,为本文的研究奠定了理论和技术基础。在通过对2012年到2019年近8年来发生的建筑安全事故快讯信息进行统计分析后,对建筑安全事故的发生规律有了初步的了解。明确了建筑安全事故调查报告数据收集的主要事故类型和地区。通过Scrapy爬虫框架对建筑安全事故调查报告数据进行收集。通过对建筑安全事故调查报告内容结构的分析,确定研究的主要文本内容并将其初步结构化。使用基于互信息和邻接熵的领域词发现算法对建筑安全事故调查报告的原因部分进行了不安全因素的挖掘分析,为建筑安全事故的预测提供了特征信息。通过皮尔逊相关系数分析不安全因素之间的线性相关性。使用word2vec对不安全因素词向量进行训练得到不安全因素的词向量,通过对其聚类来获得不安全因素在语义上的相似度。利用TF-IDF(Term Frequency–Inverse Document Frequency)词频逆文档频率关键词算法分析了不安全因素和主要的事故类型间的相关性。为建筑安全事故不安全因素本体库的构建提供了现实的参考依据。从分析结果与现实情况对比,论证了建筑安全事故调查报告的挖掘价值。通过参考建筑安全领域相关文献和国家标准以及对不安全因素和建筑安全事故类型之间关系的分析基础上,明确了本体库的构建范围。而后对建筑安全事故的不安全因素和事故类型的概念类及其关系属性进行了定义。最后使用本体开发软件Protégé构建本体库。在建筑安全事故类型预测部分,将建筑安全事故数据集分别采用One-Hot独热编码表示、词向量表示以及基于本体知识的向量化表示。分别采用两组模型对这三种数据集进行训练预测。一组是典型传统的机器学习方法:朴素贝叶斯、支持向量机、逻辑回归、随机森林和多层感知机,另一组是TextCNN模型。通过实验结果对比分析后表明本文提出的基于本体知识的向量化表示结合TextCNN模型方法在预测的正确率、精度、F1值和AUC值上均有提升。文章的最后,阐述了论文的主要成果和结论以及未来的研究期望。图[35]表[16]参[60]