论文部分内容阅读
粗糙集理论是一种用于数据分析的数学理论,能够有效处理不精确、不一致和不确定性知识。Pawlak粗糙集模型是粗糙集理论中最经典的模型,它通过等价关系粒化论域,非常适合处理离散型数据,但是对于常见的数值型数据,Pawlak粗糙集模型已不能直接处理。邻域粗糙集模型将Pawlak粗糙集模型的等价关系泛化成邻域关系,有效解决了后者无法直接处理数值型数据的问题,极大地拓宽了粗糙集理论的应用范围。属性约简在邻域粗糙集模型的应用过程中发挥着关键作用,因此研究并设计基于邻域粗糙集的属性约简算法具有非常重要的意义。本文的重点研究内容就是在现有的基于邻域粗糙集的属性约简算法的基础上,针对其中一些算法的不足之处进行改进,并加以验证。除此之外,本文还建立了一个新的变精度粗糙集模型,并对其进行了深入的研究。本文的主要工作如下:首先,本文针对基于依赖度模型的邻域粗糙集属性约简算法存在的问题,提出了一种基于改进的属性重要度的邻域粗糙集属性约简算法。该算法建立在改进的属性重要度的基础上,综合考虑了加入属性后依赖度的变化和邻域知识粒度的变化,能够更加全面地度量条件属性的重要程度,提高了分类性能。然后,针对变精度粗糙集模型无法处理无限集合的问题,本文在变精度粗糙集模型的基础上,结合测度理论,提出了基于勒贝格测度的变精度粗糙集模型,定义了该模型的上下近似集。此外,本文还充分研究了上下近似集的相关性质,从理论上分析了该模型的有效性。最后,在勒贝格测度的基础上,本文提出了基于无限集的邻域近似条件熵模型。同时,设计了一种基于邻域近似条件熵的启发式属性约简算法,解决了基于近似条件熵的邻域粗糙集属性约简算法不能处理无核的邻域决策系统的问题。文章通过UCI数据库中的五组数据集对该算法与代数观点、信息论观点下的两种代表性邻域粗糙集属性约简算法进行分析,实验结果证明该算法是有效的,并且能够获得更好的属性约简结果。