论文部分内容阅读
经典粗糙集理论是一种处理不完整数据的有效方法,但它要求目标数据的分类必须精确。变精度粗糙集理论则是在经典粗糙集理论的基础上引入了错误分类率β,将经典粗糙集理论中的集合完全包含关系扩展到多数包含关系,允许存在一定的错误分类率,使得粗糙集理论所能处理的数据的范围相对更广。
在此理论背景下,本文首先提出了一种基于变精度粗糙集的正确分类率的选择算法。在以往的变精度粗糙集的应用过程中,正确分类率的取值大都依靠决策者的主观意志或经验来确定,使得对数据的最终处理结果存在人为性和偶然性。针对这种情况,本文提出了一种基于集合可辨性的正确分类率选取算法。该算法利用近似分类质量和正确分类率之间的相关性,给出一个正确分类率β的取值范围,使得当正确分类率β在此区间中取值时,变精度粗糙集近似分类质量保持不变。该算法将排序及二分查找的思想融入阈值区间的确定过程中,使其运行的时间复杂度由o(n)下降为o(log2n),从而降低了时间成本。
在确定了变精度粗糙集的阈值取值范围的前提下,本文还提出了一种基于改进的二值区分矩阵的变精度粗糙集的属性约简算法。该算法将二值区分矩阵中原有的样本对所组成的矩阵对象改进为条件属性集的等价类对所组成的矩阵对象,使得决策信息系统转换形成的区分矩阵对象数量更少。在保证取得准确的约简核的前提下,该算法简化了相对最为复杂的矩阵约简过程,从而大大降低了属性约简过程的时间。在处理样本数较大且相关程度较高的决策信息系统时,能有很好的约简效果。