论文部分内容阅读
运用邻域粗糙集理论能够直接处理数值型、符号型以及混合属性型数据,已广泛应用于人工智能、模式识别与数据挖掘等研究领域.属性约简是邻域粗糙集理论的一种具体应用,在保持原始数据分类精度不降低情况下,通过删除数据集中的冗余属性,达到简化数据集的效果.通过属性约简不仅可以缩减数据集空间占用,还能够减少直接在原始数据集上进行决策中可能带来的决策错误.基于邻域粗糙集理论,本文将对相应属性约简算法进行深入研究.主要的工作内容如下:(1)用邻域关系矩阵表示邻域关系,将邻域关系间的集合运算转化为矩阵运算,探究了邻域关系矩阵的基本性质.基于排序、邻域关系矩阵对称性和近邻搜索思想,提出了计算单属性邻域关系矩阵算法SANRM(Single Attribute Neighborhood Relation Matrix algorithm),是对传统单属性下等价关系矩阵算法SAERM(Single Attribute Equivalence Relation Matrix algorithm)的有效改进.(2)针对邻域决策信息系统的属性约简问题,围绕邻域决策误差率最小化准则不能准确反映各类分布均匀情形下的样本邻域信息粒决策信息问题,结合样本邻域信息粒度及其决策分布状况,提出了一种能有效反映条件属性子集与决策属性相关性的新度量.证明了其粒化单调性,构建了基于邻域关系矩阵的启发式属性约简算法NRMAR(Neighborhood Relation Matrix-based Attribute Reduction).UCI数据集实验分析表明,NRMAR能够有效选择属性且保持或改善数据集分类能力.(3)利用分类任务的一致性假设,提出了类标准差邻域半径自适应取值法,并将其应用于NRMAR中.UCI数据集实验表明,自适应类标准差邻域半径取值方法比固定邻域半径法进行的属性约简结果更加合理,新方法能够高效地获得更小的约简属性子集且保持或改善数据集的分类能力.由此,邻域半径的取值不再根据主观经验随意确定,可以根据具有数据集的分布特征自适应获取,因此更具有一般性.