论文部分内容阅读
Z. Pawlak提出的经典粗糙集理论是基于由属性诱导的不可分辨关系来进行数据分析的,数据模型中只包含符号型属性。而当前实际的信息系统中存在既包含符号型属性,也包含连续数值型属性的情况,即混合型信息系统。对符号型属性数据以及混合数据的约简是本文的主要研究内容,两者在文中都采用了同种考虑方式——将属性的约简问题转化为矩阵的构造化简问题。对于只包含符号型属性信息系统的知识约简问题,本文采用基于可辨识矩阵的约简方法。文中讨论了可辨识矩阵一般约简算法的不足,提出利用合取律来简化可辨识矩阵繁琐的构造过程,通过对属性重要性的度量,以及删除属性组合项对矩阵状态的影响程度,得到最终的约简结果,省略了可辨识函数由合取范式向析取范式传统的转化模式。对于混合数据的处理,现有文献从连续数值型属性离散化入手,用不同的符号表示多个划分的子区间,继而对形式统一的数据集约简;或是对不可分辨关系进行拓展,利用模糊粗糙集模型、遗传算法等等,模糊粗糙集模型是混合数据分析的重要模型之一,模糊等价关系的构造是基于模糊粗糙集模型的混合数据分析的关键。本文基于模糊粗糙集模型,提出一种带权的对象间相似性度量方法,克服了现有方法的局限性,并应用于模糊等价矩阵的构造,使其在等价关系的基础上进行约简。最后借助领域知识设计了基于量化知识的属性约简算法,加入领域专家的经验知识以及用户的需求偏好,有效地缩减了循环计算过程。通过对UCI机器学习数据库中5个数据集的约简验证了方法的有效性和可行性。