论文部分内容阅读
知识获取是人工智能领域最为核心的内容之一,对知识不确定性的研究和探索贯穿于人工智能近半个世纪发展历程的始终,特别是最近20年间,知识获取受到了广泛的研究,各种不同的知识获取方法应运而生。 粗糙集理论是波兰学者Pawlak于1982年提出的一种数据分析理论,其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。经过二十余年的发展,由于其在数据的决策与分析、模式识别、机器学习、知识发现等方面的成功应用,引起了世界范围内各国学者的广泛关注。由德国学者Wille于1982年提出来的概念格理论同样是建立在分类基础上,通过概念的内涵和外延上的依赖或因果关系,建立层次结构来推导规则。概念格已被广泛地应用于软件工程、数据挖掘、信息检索等领域。粗糙集和概念格自产生以来,由于思想新颖,方法独特,不需要任何先验信息,并且推导的规则具有可解释性,目前已成为知识发现的两个重要工具。 本文对粗糙集与概念格中的一些基础理论问题和知识发现方法进行了深入的研究。 论文的主要贡献和创新点如下: (1)给出了知识粒度的公理化定义,提出了基于知识粒度的粗糙集的精度、粗糙度和粗糙分类的精度的新的度量方法,给出了一个基于知识粒度的属性约简算法,并通过UCI标准数据集对这些度量方法进行了测试。理论分析和实验结果表明,这些度量克服了经典粗糙集不确定性度量的不足,与已有的度量相比,具有形式简单、精度高、可理解性强的特点。这些新的度量对于规则评价和知识获取有着重要的意义。 (2)给出了非完备信息系统中知识粒度的公理化定义,提出了非完备信息系统中粗糙集的精度、粗糙度和粗糙分类的精度的度量方法,统一了完备信息系统和非完备信息系统中的相关度量结果,实验结果表明了这些度量的有效性。同时,针对非完备信息系统,提出了一种基于知识粒度的属性约简算法。 (3)提出了一种新的更有利于规则提取的扩展的概念格模型,即闭标记概念格,给出了相应的基于闭标记的渐进式构造算法。在新的格结构下,提出了蕴含规则、关联规则以及分类规则的获取方法。实验结果表明,基于闭标记概念格能够提取出简洁、有效的规则,与已有的方法相比,减少了规则的数目,提高了规则的可理解性。 (4)建立了优势关系下的扩展概念格模型,即优势概念格,讨论了信息系统中优势关系、偏序集与概念格的关系,给出了优势概念格的构造方法和基于优势概念格的对象全序化方法与属性约简方法。这些结果扩大了概念格的研究领域,为基于优势关系的信息系统的规则获取提供了新思路。 (5)设计并实现了一个基于粗糙集与概念格的知识发现平台,在该平台上对本文所提出的算法进行了集成并通过UCI的标准数据集进行了测试,取得了较好的效果。 总之,本文对粗糙集理论中的不确定性度量与知识约简、基于概念格的知识获取、基于概念格的扩展模型等方面进行了研究,取得了一些有意义的重要结论,并对提出的算法进行了实验分析和讨论。最后,基于本文所提的算法和一些典型算法,开发了一个基于粗糙集和概念格的实验平台。本文的研究成果丰富了粗糙集和概念格的基本理论,在知识发现、模式识别、决策分析等方面具有重要的理论意义和广泛的应用价值。