论文部分内容阅读
随着计算机技术的高速发展,我国正逐步进入信息大爆炸的网络信息时代,其随之产生的海量数据中往往包含大量存在不确定性及不完整性的信息。粗糙集理论是一种有效的处理模糊、不确定知识及不一致数据的数学工具,其在数据挖掘、知识发现等方面均有着重要作用。作为粗糙集模型中的基础和关键研究点,样本间关系描述及不确定性度量在包含不确定信息的数据处理过程中有着重要意义。本文通过对样本和类簇关系的定量分析,提出了一种基于相关性度量方法,并将其应用到属性约简和三支聚类中,其主要内容如下:第一,基于样本相关性的属性约简方法。目前,大多数的属性约简都是在不可分辨关系或等价关系计算的基础上提出的,其表现性能的好坏均取决于样本等价类与其所属决策类间关系的变化。然而,这些关系的变化却不足以描述约简前后信息系统分类能力的变化,而这种分类能力却是影响信息系统表现性能的决定性因素。因此,本文提出了一种改进的属性约简方法。首先,引入了样本相关性来描述样本间的定量关系,并基于该相关性定义了类内样本相关性和类间相关性两个概念。之后,基于对分类特性的研究,本文通过整合上述两个概念提出了一个以寻找最大化类内样本相关性和最小化类间相关性的最小属性子集的约简准则,并结合启发式搜索方法设计了相关约简算法以求解约简。最后,通过多组对比实验对本文所提出的属性约简在提高或维持分类性能方面的有效性进行了验证。第二,基于样本相关性的自动三支聚类方法。在传统的聚类方法和三支决策理论中,人们通常根据主观调优来选择合适的聚类类簇数目以及三支分区阈值。然而,这种固定的类簇数目和分区阈值无法针对不同大小及密度的数据集、类簇进行调整,无法随着数据集及类簇的不同选择合适的类簇数目及分区阈值。针对上述问题,本文提出了一种改进的三支聚类方法。首先,通过样本相关性和三支阈值的引入定义了等价关系等相关计算,并给出了粗糙集模型中粗糙度的计算定义,通过对粗糙度和三支决策理论的性质分析定义了度量不同分区阈值下类簇分区表现性能的有效性度量指标。接着,基于相关性概念定义了类内样本相关性和类间样本相关性两个概念以描述样本及类簇间关系的定量变化,并通过上述两个概念的整合定义了度量不同类簇数目下聚类表现性能的有效性度量指标。最后,通过聚类有效性指标和分区有效性指标的集成定义了一种基于样本相关性的自动三支聚类方法,并通过多组对比实验验证了该方法的有效性。