论文部分内容阅读
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是当前人工智能研究中非常活跃的领域。粗糙集理论是一种有效地处理模糊性和不确定性问题的数学工具,为数据挖掘的研究提供了新的思路和基础。本文主要围绕基于粗糙集的数据挖掘,针对传统数据挖掘处理噪声数据不力的问题,从理论和应用两个方面对挖掘方法进行了深入的研究。本文的主要工作包括:(1)在可变精度粗糙集理论下对经典粗糙集的概念进行了重新的诠释;分析了粗糙集理论在数据挖掘应用中的理论根据和基本原理,并点出了研究的方向。(2)结合信息论,提出了基于信息熵的属性约简算法。该算法以属性的核作为计算约简的出发点,以过滤分辨矩阵作为选择候选属性的依据,以条件属性和决策属性的信息熵作为启发信息,来寻找决策信息系统的最小约简。实验证明,该算法和经典的启发式算法相比,能够降低当噪声数据存在时漏失有效属性的风险,加快属性约简的速度。(3)提出基于变精度粗糙集的决策树改进算法。该算法采用β-边界域作为选择分类属性的标准,因此解决了不能对噪声数据进行分类的问题。另外,该方法还对规则置信度进行了重新定义,从而提高了决策树的可理解性。实验结果表明,该方法更加实用、易于理解且能明显地提高分类的效率。(4)在研究、分析了车站建设施工数据和施工安全风险的基础上,提出了对轨道建设施工安全风险进行预测的一系列数据挖掘方法。首先,对数据进行清洗、转换和离散化,并给出数据的集成方法;然后,运用改进的属性约简算法,对31个属性进行约简得到13个条件属性。最后,在完成预处理的基础上,采用基于变精度粗糙集的决策树改进算法对1021条施工安全数据进行了分类分析,建立起轨道建设施工安全风险评估模型,并在此基础上初步开发了一个基于粗糙集的数据挖掘系统。本文实验结果表明,本文改进的基于粗糙集的算法对噪声数据的处理可行、有效。