论文部分内容阅读
计算机技术、网络和存储技术的快速发展,使得数据获取和存储变得越来越容易,从而加剧了海量数据集的产生。这些海量数据中往往包含有大量冗余的、不确定的和不完整的信息,严重影响人们从中获取有用的知识信息;而且随着数据的增减或改变,也会对核心数据产生影响。如何从这些含有冗余的、不确定的、不完整的并且不断变化的海量数据中发现有用的知识信息,以帮助人们做出正确的判断和决策,是数据挖掘的一个重要研究领域。数据约简是在保持原有数据分类能力不变的前提下,将数据集中不重要的、不相关的冗余信息剔除掉。基于粗糙集理论的属性约简是近年来倍受研究者关注的数据约简研究之一。粗糙集理论由波兰数学家Z.Pawlak教授于1982年提出。该理论基于集合论思想,是处理不确定和模糊数据的有力数学工具。经典粗糙集仅适用于处理符号型数据,不能有效处理连续型数据。邻域粗糙集实现了对连续和混合型数据的有效处理,避免了对数据进行离散化而可能发生的重要或隐含信息的丢失。因此,基于邻域粗糙集的属性约简算法就成为属性约简研究的新热点。论文以邻域粗糙集为基础,研究了以下几种属性约简算法:首先,对基于邻域粗糙集的属性约简算法进行改进,以邻域粗糙集所确定的正域来评价各个属性的重要性,按重要性从大到小依次将属性加入约简集合,形成了多个属性子集,以支持向量机的分类性能评价各属性子集,从而选出分类准确率最高的属性子集作为约简结果。提高了约简集合的分类预测准确性。仿真实验表明了该方法的可行性与有效性。其次,针对连续型数据集不断更新变化的特点,提出了基于邻域粗糙集的属性约简增量式更新方法。根据新增样本对全集正域的影响,分情况对原约简集合进行不同的更新处理,有效避免了重复运算,降低算法复杂度。通过实例对算法进行了分析说明。最后,针对不完整决策系统的约简算法具有较高时间复杂度问题,在原有约简算法基础上,提出了基于邻域粗糙集的不完整决策系统前向顺序属性约简算法。该算法不仅适用于符号型的不完整决策系统,也适用于不完整的实型和混合型数据集属性约简;在保持系统分类能力的情况下,降低了不完整决策系统属性约简算法的时间复杂度;并且选择出属性个数更少的属性子集;提高了不完整决策系统的属性约简效率。通过实验表明了该算法的可行性与有效性。