论文部分内容阅读
粗糙集理论是一种能够有效地分析和处理各类信息的数据分析工具,即使信息中包含了不精确、不完备、不一致等不确定性的信息,因此,该方法在知识发现、机器学习、模式识别、决策支持、预测建模和故障诊断等领域已得到广泛的应用且获得成功。知识约简是粗糙集理论的核心问题之一,是将粗糙集方法应用到其他领域的关键技术,也是知识发现重点研究的课题之一。快速、有效的知识约简算法是粗糙集理论研究的基础内容,也是粗糙集理论迈向实用化的前提。随着各国学者的不懈努力,知识约简的理论和方法不断得到发展和完善,但是也存在着一些问题,比如Pawlak粗糙集理论为处理离散属性提供了一种很有效的工具,遗憾的是它不能直接处理连续属性,这在很大程度上限制了粗糙集理论的应用范围。因此,将粗糙集理论扩展到连续属性的处理方面,既是粗糙集理论发展的要求,也是实际应用的需要。研究多类型属性的知识约简的模型和算法,无论就知识约简的理论研究,还是将其应用在其他领域都具有重要的价值。本文在具有多类型属性的论域上,以经典粗糙集理论为基础,对扩展的邻域粗糙集模型、约简算法及其在分类上的应用进行了较深入的研究。本文首先对扩展的粗糙集模型进行了研究。在论域U构成的度量空间(U, d)中,提出了邻域集的概念,重新定义了更加准确、简洁的邻域粗糙模型,定义了上、下近似等一系列概念,给出了有关该模型的性质、定理,同时分析了邻域粗糙模型与Pawlak粗糙模型之间的关系以及邻域决策表的粗糙性。接着论文针对具有多类型属性的完备信息系统,研究了典型的求解该系统的约简算法。针对传统方法存在的问题,提出了一个基于邻域粗糙模型的通用计算模型以及一个通用约简算法,该算法可以直接求多类型属性的信息系统属性约简,且无需对连续型的属性值进行任何预处理。实验证明了算法的合理性和可行性。另外,实验分析还表明,对稍大规模的完备信息系统,其核均为空,启发式算法已无理论指导意义。在邻域粗糙模型中,由于颗粒化(δ<0)的存在,对于一个决策表所求得的约简已不是最优约简。本文研究了邻域半径的大小与约简长度之间的关系,针对如何求得次优约简的问题,给出了一个计算次优约简的算子公式;结合进化算法,提出了基于邻域粗糙模型的决策表次优约简算法。求解一个高维数据集的约简,由于“维数灾难”导致了计算的异常复杂性和低效率。本文通过研究几种固有维数估算的方法,结合进化算法,提出了基于邻域粗糙模型的高维数据集快速约简算法。实验证明了算法的合理性和可行性。最后,研究了约简在分类问题上的应用。对于分类问题,特征子空间的构造是一个核心问题。本文提出了以约简作为特征子空间的基本成分,然后通过添加若干个特征重要度和特征贡献率最大的特征共同构成特征子空间,实现了基于约简的多分类器融合算法。