论文部分内容阅读
数据描述是一类特殊的数据挖掘任务:根据用户需求,将定义在符号域上的信息系统(数据集合)约简为人可阅读的具有不同简洁程度的文本,同时,对约简过程中产生的例外进行分析.这个任务与认知心理学的"规则+例外"原理一致,它有三个要点:(1)根据用户需求获得解答;(2)不同简洁程度的文本;(3)例外分析.该文使用粗糙集理论中的reduct理论作为工具,形式化的阐述数据描述任务,并解决相应的计算问题.直接使用正区域与边缘区域描述规则与例外不符合人的认知,为了准确刻画"规则+例外"模型,该文将其修改为认知正区域与认知边缘区域.由于正区域是reduct理论的基础,并且对给定信息系统唯一,而认知正区域不满足唯一性条件,因此,我们重新定义与证明了基于正区域定义的所有概念与性质.用户通常希望给定需求下描述尽量简洁,我们用基于认知正区域的reduct定义文本粒子,作为数据集合的简洁描述.传统粗糙集理论的研究一般不关心边缘区域的结构,而"例外"与边缘区域密切相关.因此,我们详细的研究了边缘区域的结构与性质,以了解"例外"空间的结构,为例外分析奠定基础.为了有效鉴别例外,我们设计了一种特殊的差别矩阵来分析边缘区域的结构和例外的形成过程,并提出基于core属性的例外鉴别方法.Core与reduct是Reduct理论中的两个基本概念.Core有一个重要性质:如果一个属性是core属性,从信息系统中删除这个属性,必然导致边缘区域的改变.这个性质是计算例外的基础.此外,reduct与core之间存在一种特殊的关系:基于给定信息系统的reduct构成的新信息系统,其中所有属性均为core属性.这暗示着,如果我们能够计算出信息系统的reduct,那么从这个reduct中逐步删除属性,即可生成不同简洁程度的文本与派生例外.对大规模数据构成的信息系统,使用该方法进行数据描述的先决条件是寻找快速的可以根据需求计算reduct的算法.该文在分析前人算法的基础上,发现计算reduct空间的中间表示是影响算法效率的关键,为此,提出了一种样本个数呈线性的计算reduct的树表示算法,并且,在这种表示下,计算reduct理论的其他概念同样有效.我们证明,这个算法对reduct完备,且与基于属性序reduct算法等价.该论文的主要成果是:1.基于树表示的reduct、core等基本概念的快速计算方法,其复杂性与样本个数呈线性关系.2.提出"认知正区域"与"认知边缘区域"以刻画"规则+例外"模型,并证明了其性质.3.对边缘区域进行了详细分析,证明其性质,并设计一种特殊的差别矩阵分析边缘区域的结构和例外产生的原因.4.提出基于core属性的例外鉴别方法.