论文部分内容阅读
实际应用中有许多信息系统同时含有无序的符号值属性和有序的连续值属性,例如UCI数据库中的Iris数据集是根据取连续值的萼片和花瓣的长、宽来判别花的种类;股票公司对股民投股的预判,可以依据股民的性别、年龄和投资金额三个属性特征来进行分类。这里我们把有序的属性称为“标准”,则上述分类称为多标准分类问题。在此类问题中,单纯的基于等价关系或优势关系来对信息系统进行处理,不能处理混合类型的数据,同时也降低了所抽取规则的可解释性。为解决多标准分类问题,我们在无序的符号值属性上引入等价关系,而对于有序的连续值属性仍旧用基于优势关系的方法来对其进行处理。研究内容如下:1、针对条件属性为有序值而决策属性为无序符号值的信息系统,引入优势-等价关系的定义,并给出了一种基于样例对的矩阵约简算法。区别于传统的基于辨识矩阵约简方法,该算法在不计算辨识矩阵的前提下,通过选择样例对来找到辨识矩阵中对约简有用的属性,因此能够明显改善计算约简的时间耗费。除此之外,为了处理较大规模的数据,我们提出了一种近似约简算法。该算法按属性重要性添加属性到约简中,进一步缩短了求取约简的时间。最后,在UCI数据集上进行大量的实验并与传统的约简算法进行了对比,结果表明了所提出算法的有效性。2、将所提出的近似约简算法应用到动态信息系统中。即在增加或删除多个样例时,仅更新优势集便可快速得到约简,同时给出了更新原理。最后在UCI数据集上的实验表明,该方法在与传统的更新方法和浓缩优势矩阵方法相比较时,在保持相同或更简约简集的情况下,明显减少了时间耗费,提高了约简效率。3、针对条件属性中同时含有无序和有序值的多标准分类问题,引入混合信息系统的定义。在此基础上,给出混合信息系统下优/劣势集及决策类的上下近似的定义以及覆盖式的规则提取方法。最后用提取出的规则对测试样例进行分类。通过实验表明,与采用单调规则的方法相比,我们所提出的方法能够提取更多的规则并且在分类精度略有提高的情况下明显缩短了运行时间。