论文部分内容阅读
粗糙集理论是波兰数学家Z. Pawlak于1982年提出的一种处理不确定和不精确知识的数学工具,它的主要思想就是保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则,从中发现隐含的知识,揭示潜在的规律。其最大的优点是无需提供除问题所需处理的数据之外的任何先验信息,客观描述或处理的不确定性问题,已成为信息分析和数据挖掘的重要方法。 现实中存在着大量不相容决策信息系统。Pawlak最初提出的粗糙集理论是以等价关系为基础的,但是对不相容决策表用传统的等价关系得到的划分其属性约简的速度和最小约简都不理想,限制了粗糙集模型的应用,针对不相容决策信息该系统的约简研究,将更具实践意义。 覆盖算法是一种基于M-P神经元的构造性神经网络算法,具有运行速度快、精度高的特点,在众多领域得到广泛应用。本文利用覆盖算法对数据进行处理,构建论域U的一个划分,从而定义一种基于覆盖的条件信息熵和属性重要性,以新的属性重要性为启发信息设计属性约简算法。主要工作包括: 1.综述了经典粗糙集的基本理论和方法,研究粗糙集理论的属性约简的主要方法,分析各自的特点与存在的问题。简要描述覆盖算法的思想,并分析覆盖领域内样本点的特点。 2.提出基于覆盖算法的条件信息熵表示及属性重要性的计算,并证明了对于一致决策表,它与基于该条件信息熵的属性约简与代数定义下表示是等价的。 3.由新的条件信息熵定义新的属性重要性,以新的属性重要性为启发信息设计约简算法并给出相应的算法。实验表明该约简算法能快速搜索到最优或次优约简。 4.利用基于覆盖算法的属性约简,对1993年到2005年我国石油安全数据建立的决策表进行属性约简,提取决策规则。实例分析得出我国石油安全属于重警区,需加强防范。