论文部分内容阅读
伴随着信息时代的到来,各行各业在日常管理中积累的数据资源也愈来愈多,其中不确定数据和缺失属性值数据的出现和增长给数据处理带来了极大的困难,因此,从这些数据中提取有用的信息并对其分门别类就变得至关重要.模糊集合理论常常被用来处理不确定性问题,基于模糊知识的数据分类是模糊集合理论的一个重要的研究内容.模糊分类规则被广泛认为是分类知识较好的表示,其具有可读性和可解释性.模糊分类在图像处理、文字识别、语音识别、文本分类、遥感、气象及工业自动化控制等许多领域得到广泛应用.近年来,不确定数据的分类问题引起了越来越多研究者的关注,传统的模糊规则分类器只考虑单个特征或者只考虑多个特征.本文基于联合规则提取算法,提出了模糊规则的分类算法,其基本思想是先使用单个特征,然后对于分到多个类中的样本逐渐增加特征个数再分类,直到没有重分的样本.为了降低分类算法的复杂度,提高分类器的构建效率,我们使用了一种新的归属度计算方法:计算生成每条规则的样本集隶属度之和与规则个数的比值,将该比值作为类的归属度,通过理论分析验证了该过程在概率意义下是近似正确的.最后我们在十一组公共数据集上对本文提出的分类器性能进行检验,并与其他六种决策树分类器在准确率上进行了比较.实验结果表明,本文建立的分类器在7组数据集上的平均分类准确率高于其他六种分类方法.针对处理缺失属性值数据的分类问题,本文基于改进的模糊特征提取算法和上述模糊规则分类算法,提出了一种改进的基于模糊知识的缺失属性值数据分类算法.该算法不需要对缺失属性值数据进行插补运算,只使用已有的属性值,对缺失项不进行处理,直接令缺失属性值的隶属度为0,从而避免了插值的不确定性对分类造成的影响.从UCI数据库中选取四个真实数据集,将该算法与三个现有的算法进行对比分析.实验结果显示,基于模糊知识的缺失属性值数据分类算法在缺失数据分类精度和泛化能力上有所提高.