论文部分内容阅读
在我国,水害事故频繁发生,严重威胁人们的生命财产安全。而煤层底板突水现象是事故中最常见的一种,它是由多种因素综合作用的结果,情况复杂,以往的预测方法很难解决此问题。本文将煤层底板突水预测问题归纳为数据挖掘分类问题,引入决策树分类算法。决策树算法是一种简单、易懂、有效的分类方法,已经在各行各业得到了广泛的应用。尽管目前的决策树算法发展的已经较为成熟,但还有需要改进的地方:一方面,分类精度还需进一步提升;另一方面,不能很好的处理非平衡数据集。本文针对存在的问题,展开对决策树算法的研究,首先通过UCI数据集对基于优化算法建立的分类模型进行实验论证,最后将其应用于实际的煤层底板突水预测中。本文的主要创新点如下:(1)提出一种基于C4.5与CART算法建立混合节点分裂算法的分类模型。对比研究几种常见的决策树算法之间的差异及内在联系,设计一种基于C4.5与CART算法建立混合节点分裂算法的分类模型,实验结果表明,改进的分类模型的分类精度较传统的C4.5与CART算法建立的分类模型有一定程度的提高,但是幅度不大。(2)提出一种基于根节点信息的多决策树分类模型。为了更大程度的提高分类预测模型的分类精度,鉴于根节点的属性选择对于构建整个决策树的重要性,本文将每个分裂属性分别作为根节点建立n(分裂属性的个数)棵决策树,形成一种多决策树的分类器。利用UCI数据集进行分类器性能测试,实验表明,其分类精度较单棵决策树有很大的提升。(3)设计了一种基于代价敏感的决策树算法分类模型。在实际应用中少数类的误判往往会带来巨大的代价,传统决策树对非平衡数据进行分类时往往出现少数类分类困难的问题。为了减少由于数据的不平衡性带来的少数类分类误差,本文引入代价敏感理论。在进行构建决策树时,将误分类代价引入节点分裂函数中,建立综合考虑属性信息和误分类代价的代价敏感决策树,并利用不同评价指标对其进行性能评价。实验结果表明,其在保证整体分类精度和多数类分类精度较高的基础上,大大提高了少数类的分类精度,从而获得具有性能较好的决策树分类预测模型。(4)将基于代价敏感决策树算法应用于煤层底板突水预测中。本文分别采用经典的C4.5与CART算法建立突水预测模型,与基于代价敏感建立的模型进行实验,对比三种算法的准确率、真实正类率、真实负类率、G-mean值、F-measure值。实验结果表明,基于代价敏感的决策树算法与传统的决策树算法相比,有很大的优势,这对实际的煤矿防治水有很大的意义。