论文部分内容阅读
人工智能时代,数据越加显得重要,其价值不可估量。近年来火热的大数据、云计算、人工智能等新技术的发展,往往离不开对数据的挖掘。作为一种解决智能信息处理的重要措施,粗糙集是由波兰学者Z.Pawlak教授率先提出来的,主要用来处理偶然性问题。然而随着社会的发展,由于数据的多样性、多变性,来源和结构的复杂性等特点,经典的粗糙集理论在一定程度上已经不再适合现实的情景,如何从规模庞大且复杂的数据中发现更加深层的信息和隐含的知识变得更加具有挑战性。本文从局部思想出发,在多特征信息系统的构造、测试代价敏感等方面,探索粗糙集理论模型构建和属性约简等问题。主要的研究成果如下:1.决策粗糙集局部数据分析。相较于经典粗糙集,决策粗糙集模型将代价问题考虑在内,这为粗糙集的属性约简问题带来了新的挑战。尽管已有针对决策粗糙集的一些属性约简方法被提出,但这些约简标准都是基于所有决策类的,约束条件较为严格。为解决这一问题,从局部视角出发,针对单独的决策类提出了Local约简的思想。基于启发式算法求解约简的实验结果表明,相比于面向所有决策类的约简,Local约简可以获得更多的正域规则,同时也能够进一步降低约简中的属性数量。2.基于多特征信息系统的决策粗糙模型及其数据分析。从局部思想出发,考虑到每个决策类本身可能具备独有的特性。从对多标记学习中获得启示,通过聚类分析方法,构造了更能反映信息系统基本特征的多特征信息系统,给出了多特征信息系统下决策粗糙集的上下近似、近似质量定义。通过实验分析,发现构造多特征信息系统有助于有效地减少信息系统的不确定性,提高了分类效率。3.测试代价扩展决策粗糙集及其数据分析。将测试代价引入到决策粗糙集中,设计能够获得更高效率的约简算法是本文的一个创新之处。本文基于不完备系统,重新给出了基于测试代价的模型新定义,能够更加地贴近现实。同时,在对决策粗糙集模型进行泛化建模地基础上,考虑到传统地启发式算法在约简过程中比没有考虑到测试代价,本文提出了一种测试代价敏感的δ-cut量化决策约简算法。