论文部分内容阅读
传统的分类算法主要是针对处理确定性数据分类的情况,确定性数据是指训练数据集和测试数据集中的每一个数据样本的每一属性值都是唯一确定的。处理确定数据分类问题的方法很多,如C4.5决策树、SVM支持向量机和贝叶斯分类等。但现实情况中所采集到的数据往往是不确定的,不确定性数据具体表现为数据样本每一维度的值都是在一定范围内服从某种分布的数据的集合。传统的分类算法在处理这一类的不确定数据的分类问题时会由于自身固有的局限性,直接导致分类精度的下降。
因为不确定数据每一属性值都不是一个唯一确定的值,而是一个以[A,B]的形式表示符合一定分布的取值区间,因此每一个不确定性数据样本,在高维空间不再是单个确定的点,而是高维空间上的一团点。针对处理这样的不确定性数据分类问题,本文提出了四种算法:分别是基于期望值的AVG算法、基于采样的USM算法、基于采样的组合分类器EUS算法和基于权重采样的EWS算法。AVG算法和USM算法分别通过期望点和采样点把原不确定性数据分类转化为传统确定数据分类问题;EUS算法是通过采样的方法,引入组合分类器的思想,对不确定数据对象按其密度分布函数进行采样,通过采集不同的训练集来构造不同的子分类器,从而组成组合分类器来解决不确定数据的分类问题。EWS算法是在基于采样的组合分类器EUS算法基础上的改进,引入Adaboost思想和置信度概念,减少对置信度高的样本采样,增加对置信度低的样本采样,更加关注那些容易被错分的不确定数据对象,构造组合分类器来解决不确定数据的分类问题。最后,本文通过对UCI14个数据集进行实验验证了EUS算法及EWS算法的良好性能。