论文部分内容阅读
自二十世纪七十年代大规模集成电路、超大规模集成电路诞生以来,计算机已经成为现代工业、商业、农业等各个领域必不可少的一个工具,但随之而来的是数据的迅速膨胀,使得人类在一个极短的时间里进入了数据爆炸的时代.这些数据具有巨大性、随机性、不确定性等特征,并且数据的生成过程又往往存在着动态特征.实际上,在这些大型的、复杂的、信息丰富的数据中,只有一小部分是人们真正需要的,如何从其中提取出人们所需要的信息,已经成为目前一个重要的课题.粗集理论是波兰数学家Z.Pawlak在1982年首次提出的,这是一种处理不完整、不精确问题的新型数学工具,它通过等价关系和近似概念对数据进行约简以获取知识.粗集知识系统是一个基于规则的系统,它不需要精确的数学描述,而是对经验的总结,因此非常适合数据处理过程中直观、简单、易于理解、人性化、智能化的要求,为数据挖掘技术提供了理论基础和研究思路. 传统的数据挖掘方法是建立在数据不会发生变化的假设下进行讨论的,可以说是一种静态的数据挖掘方法,实际上数据不可能是一成不变的,当数据发生变化时,静态的数据挖掘方法便失去了效用,因此传统的数据挖掘方法具有局限性.奇异粗集(Singular Rough Sets,简称S-粗集)是Z.Pawlak粗集的一种改进形式.它是山东大学史开泉教授于2002年提出的,是基于元素迁移的概念建立起来的一种动态粗集. S-粗集具有三种形式:单向 S-粗集(One direction S-rough sets),单向 S-粗集对偶(Dual of one direction S-rough sets),双向S-粗集(Two direction S-rough sets). S-粗集的动态特征、遗传特征、粒度特征等特性,S-粗集的提出为我们研究动态数据挖掘开辟了一个全新的方向并提供了必要的理论保证. 本文的主要工作如下: 1.主要介绍了数据挖掘的发展研究现状以及数据挖掘的分类;阐述了粗集理论提出的背景、发展状况、研究的内容和方向;介绍了S-粗集提出的背景及研究现状;并将S-粗集的理论进行了简单的介绍. 2.利用S-粗集的动态特征、遗传特征、粒度特征等特性,给出了单向S-粗集与数据筛选-过滤的研究,本文给出属性内涵,属性效率的概念,提出数据挖掘的属性效率定理;单向S-粗集是动态数据挖掘研究的一个新工具. 3.利用函数单向S-粗集和函数单向S-粗集对偶,给出-f规律知识,-f规律知识,-f规律和-f规律的概念,利用这些概念,给出规律知识生成的规律之间的关系和积分度量,以及规律属性的积分控制定理.