论文部分内容阅读
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。粗糙集理论是上世纪八十年代初由波兰数学家首先提出的一种刻画不确定性和不完整性知识的数学工具。该理论近年来日益受到广泛关注,已在人工智能与知识发现、模式识别、故障检测、专家系统等方面得到了成功的应用。 本文在总结和借鉴前人经验的基础上,针对数据挖掘中常见的问题,从理论和应用两个方面进行了数据挖掘方法研究。在数据挖掘过程中,直接在原始数据表上进行数据挖掘往往效果不佳,尤其是在数据量较大的情况下;因此对数据表进行变形,然后在变形的基础上进行挖掘是一种行之有效的方法。本文鉴于此分别从数据挖掘中存在的海量高维数据、噪声数据、数据的不完整以及模型的可理解性差等问题出发,分别提出了相应的数据表分解算法。通过引入信息理论与粗糙集分析结合使用,还对加权聚类方法进行了研究。本文的具体研究内容如下: 1.介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程,详细介绍了粗糙集理论的基础知识,并对当前国内外粗糙集理论的研究现状进行了详细阐述。 2.在数据挖掘中,直接在海量高维数据集上进行挖掘得到的规则往往数目众多、规则长度长,用于决策分析的有效性低。基于这一发现,本文利用粗糙集理论,提出了一种粗糙集属性选择量度,该量度从提高分类正确性和子数据库纯度的角度着手选择属性用于分类,进而利用该量度提出了一种数据表分解方法。本文详细分析了数据库分解方法的信息论性质,证明利用粗糙集信息量度选择出的属性集是原始决策系统的一个约简,且该分解方法的计算时间复杂度远小于经典粗糙集约简算法的计算时间复杂度,在提高计算速度的同时不会损失信息量。 3.针对海量高维数据库建立分类模型是很困难的,计算时间复杂度高,得到的分类模型可理解性差,难以解释。本文从属性构造的角度出发,基于粗糙集理论,提出一种属性分解方法来识别数据表中的中间概念层次,建立多层分类模型。本文提出了基于粗糙集的一致性搜索指标和最小值指标,利用两个指标来重新标定中间概念层次。这样把原数据表分解为小型数据表分层次进行分类,而且由于中间概念层次物理意义分明,使得模型的可理解性