论文部分内容阅读
粗糙集理论和概念格理论是八十年代初分别由波兰学者Z.Pawlak和德国学者R.Wille提出的一个数据分析的有力工具,近年来日益受到各领域的广泛关注,并已在机器学习、模式识别、决策分析、过程控制、数据库知识发现、专家系统等领域得到了成功的应用。研究粗糙集与概念格的基本理论以及将其应用于知识发现有着非常重要的意义。 本论文对粗糙集与概念格理论中的一些基础理论问题与知识发现方法进行系统深入的研究。 在粗糙集数据分析度量的特征刻画方面,通过将包含度概念引入到粗糙集数据分析中,分析了包含度与粗糙包含之间的关系,建立了包含度与粗糙集数据分析中各已知度量之间的关系,并且证实了粗糙集数据分析中的有关度量均可归结为包含度。这些结论对于人们深刻理解粗糙集数据分析的本质,定义粗糙集数据分析中的度量具有重要的指导意义。 在信息系统的信息度量方面,给出了信息系统中一种新的信息熵和粗糙熵,并建立了Shannon熵与粗糙熵以及信息熵与知识粒度的关系。在不完备信息系统中引入了粒度度量、信息熵、粗糙熵和知识粒度的概念,并给出了这些概念的性质,建立这些概念之间的关系。这些结果对于理解概念近似的本质以及在粗糙集理论中建立粒度计算有着重要的意义。 在不完备信息系统下的粗糙集理论扩充方面,提出了一种基于不完备信息系统的变精度粗糙集模型,并对其数学性质进行了论证。该模型通过引入模糊技术,使其能够在不同的概念层次上有效地进行知识约简。为运用粗糙集理论解决不完备信息系统下的数据处理问题提供了一种新思路。 在基于粗糙集的决策规则获取方面,针对不同用户的具体兴趣不同这一实际情况,给出了一种加权决策规则提取算法。该算法以本文提出的决策规则支持度为依据,从候选规则集中选取用户感兴趣的规则。 在概念格的代数性质方面,给出了形式背景下概念集合上的元素之间的二元运算,使通常意义下的概念格成为带有算子的概念格,证明了概念格为代数意义下的格,并研究了其代数性质,为概念格的进一步研究提供了理论基础和新的研究方法。 在基于概念格的规则提取方面,基于概念格理论和闭项集的概念,提出了一种新的更有利于规则提取的格结构,给出了相应的基于闭标记的渐进式构造算法和规则提取算法。最后提供给用户的是直观的、易理解的规则子集,用户可以有选择的从中推导出其它的规则。 本文工作的意义和价值主要表现在:(1)为建立粗糙集数据分析中的度量提供了理论依据,有助于人们理解粗糙集数据分析的本质;(2)建立了Shannon熵与粗糙熵的关