论文部分内容阅读
本文在粗集理论和模糊集理论的基础上,对完整信息系统的约简问题进行了研究。主要工作分为两大部分:理论部分研究了信息系统的约简以及约简过程中出现的信息粒度变化,应用部分把作者在论域约简和属性约简研究中取得的部分成果应用到人口普查数据集中,取得了令人满意的结果。研究成果可直接应用于数据挖掘中,具有重要的理论和现实意义。具体来说: 1) 分析了属性约简的代数性质和信息熵变化规律,设计了高效的属性约简算法。通过分析发现:可能约简与近似约简不等价,可能约简不能保持条件属性对决策属性的正区域不变,也不能保持条件信息熵不变,近似约简、μ-约简能保持条件属性对决策属性的正区域不变,同时保持条件信息熵不变。讨论了在各种属性约简下信息系统的信息粒度变化,发现只有可区分约简能保持粒度视图不变。结合协同进化算法和并行算法的思想,提出并实现了并行协同进化算法,用该算法求取属性集合的最小可区分约简,得出了令人满意的结果。最后对并行计算涉及到的属性约简结果的融合问题进行了探讨。 2) 提出并研究了离散格。将一个信息表的各种可能离散化方案组织成一个格空间,称为离散格。证明了离散格是一个布尔代数,给出了离散格的表示定理。构造了离散格到划分格的映射,研究了离散格及划分格中的信息粒度变化规律、条件属性对决策属性的正区域和条件信息熵的变化规律。分析了几类离散化算法,指出这些算法的求解过程正是对离散格的搜索过程。 3) 讨论了决策表论域约简的原理和算法。论域约简是指对决策表对象集合的压缩。提出了决策表的连续性假设作为论域约简的基本前提,采用了两种决策表决策能力判断方法,给出了三种论域约简算法,研究了信息粒的表现形态。文中还讨论了增量式数据挖掘中的知识约简,提出在历史知识库的建设中,可以对知识进行约简,只保留有新意的知识。 4) 成功地对人口普查数据集进行了约简。将基于邻域系统的论域约简算法和并行协同进化属性约简算法应用到人口普查数据集中,通过论域约简、属性约简和属性约简的融合,得出了与个人总收入密切相关的若干有价值的属性。