论文部分内容阅读
数据挖掘与知识发现研究如何从大量的数据中智能地、自动地提取出有价值的知识和信息,是目前相当活跃的研究领域。知识发现定义为从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级(非平凡)过程。数据挖掘是知识发现过程中的核心步骤。粗糙集理论是波兰数学家Z.Pawlak在1982年提出的一种分析不完整、不确定数据的数学工具,目前被广泛应用于数据挖掘与知识发现研究。研究基于粗糙集理论的数据挖掘具有极大的理论意义和现实意义。 论文首先概述了数据挖掘的标准数学模型以及基于粗糙集理论的数据挖掘模型,针对传统的基于粗糙集理论的数据挖掘模型存在着不实用的特点,在此基础上,通过查阅各种资料文献提出了一种改进的基于粗糙集理论的数据挖掘模型。接下来,论文对粗糙集理论的属性约简算法进行了比较深入的研究并归纳总结了目前的一些主要约简算法。属性约简算法是基于粗糙集理论的数据挖掘模型中的关键步骤,同时也是粗糙集理论研究中的一个研究重点。到目前为止,在属性约简算法方面已经有了一些成果,然而还没有一个公认的、高效的约简算法。通过研究现有的一些约简算法,论文提出了一种基于属性频率的改进约简算法。该算法是一种启发式算法,建立在可辨识矩阵计算基础上。改进算法基于Hu的算法与Jelonek算法,在计算可辨识矩阵的基础上,保证最终能够找到决策信息系统的一个约简,同时较Jelonek算法相比,运算时间明显减少。 基于粗糙集理论的数据挖掘研究正处于起步阶段,数据挖掘本身及粗糙集理论研究还有许多问题值得探讨,论文将二者结合研究肯定还有许多不完善的地方,相关工作还有待进一步研究。