论文部分内容阅读
粗糙集是由Z. Pawlak教授提出的一种处理不协调、不确定和不精确数据的数学工具,通过知识约简在保持等价关系的基础上可以产生决策或分类规则,已广泛应用到知识获取、决策分析、智能控制、模式识别、机器学习和数据挖掘等领域。决策表属性约简理论是粗糙集的重要组成部分,通常情况下,属性约简可以理解为是在保证不影响信息系统分类能力的情况下,通过删除其中一些冗余的属性和属性值,即用尽可能少的属性表示原有的知识。如何获得快速有效的属性约简算法已成为知识约简领域的一个重要研究内容。聚类又称为无监督分类,能够识别数据的内在结构,目前已被广泛应用于各种数据分析场合,包括计算机视觉分析、统计分析、图像处理、医疗信息处理、生物科学、社会科学和心理科学等。很多聚类分析方法都需要事先给出聚类所需的一些参数,譬如聚类的数目、聚类的中心点和需要迭代的次数等。若事先无法获取这些相关的知识和经验,这些聚类分析算法往往是不可行的。因此,研究一种不需要先验知识、人为因素干扰性小、聚类结果较为准备的聚类算法具有现实的研究意义。本文首先从粗糙集的基本理论入手,介绍了知识约简的启发式约简算法,之后给出了风险最小化的贝叶斯决策和三枝决策粗糙集的基本理论,并延伸到对三枝决策粗糙集正域约简算法的研究。其次,提出了基于风险收益优化的属性约简概念和相应的算法。再次,在基于风险收益优化属性约简的基础上探讨了针对面向信息系统的聚类分析的算法。本文主要研究属性约简和聚类分析算法,具体有以下几方面的内容:1)针对经典粗糙集理论和相关知识约简领域方面的研究,本文首先引入了粗糙集和知识约简的相关概念和定义,然后列举了基于属性重要度的属性约简算法,该算法可以很好地应用于噪音较低的信息系统中。2)针对经典粗糙集属性约简的不足,即在实际应用中由于噪声的存在,通常很难做到误分类率为零的精确分类,将正域定义为完全包含于目标概念的等价类过于严格,缺乏对误分类的容忍能力。本文介绍了风险最小化的贝叶斯决策和决策粗糙集模型,并在此基础上提出了基于决策粗糙集模型的正域约简并给出相关的约简算法。3)在工农业生产、经济活动和社会生活中,决策者总是希望获得的收益最大而承担的风险最小,但是这是一种理想的期望,一般不可能实现的。因此,如何平衡或兼顾两者,寻找切实可行的约简是决策过程中的一个重要问题,通过属性约简可以在海量的、复杂数据中挖掘其中隐藏的属性间关联,从而简化数据模型并提高其系统模型的仿真精度。本文在一定的预期收益水平下通过组合优化收益和风险,建立了收益和风险平衡组合的决策模型,并给出了该模型属性约简的启发式搜索算法。该算法以每个属性的收益风险平衡组合函数作为指标进行启发式属性约简,实例分析和实验表明基于收益和风险优化的约简算法可以缩少数据模型的规模和复杂度,便于进行模型系统的计算机仿真,具有较强的实用性和经济价值。4)针对传统的聚类分析方法需要给出先验知识的局限性,本文提出了一种基于收益风险优化属性约简的聚类分析方法,首先利用面向粗糙集信息系统的聚类算法框架得到一个小粒度的聚类结果;然后提出基于收益风险优化属性约简的聚类算法,该算法使用收益风险优化的函数来指导合并过程,采用凝聚的形式得到一个合适的聚类结果,并对聚类过程进行评估,直到满足聚类算法的终止条件;最后,实例分析和实验表明该聚类算法是有效的。总之,本文针对粗糙集的属性约简、决策粗糙集的正域约简、收益风险优化的约简及其在聚类分析中的应用这几个研究领域,提出了一些相关的属性约简和聚类方法,进一步丰富了属性约简和聚类分析理论。