论文部分内容阅读
面对当前大量产生及累积的数据和信息人们已不再满足于对信息的查询和统计,对数据分析的智能化和自动化要求越来越高。数据挖掘和机器学习技术的发展已经使得人们可以从大量的、不确定的和有噪声的数据中智能的和自动的提取出隐含在其中的有价值信息和知识。分类方法作为数据挖掘、机器学习和模式识别中的一项重要方法,它可以有效的帮助人们对获取的数据实例进行预测分析、对未知的模式样本进行判断识别,以便做进一步的分析和利用。证据理论是一种对不确定性问题和知识进行表示和处理有力工具,将证据理论与分类方法的结合研究能够提高分类器对不确定数据的分析、处理和表示能力。同时,将证据理论中的证据处理机制和合成规则引入分类方法中也能有效的提高分类器的分类准确率。当前基于证据理论的分类方法研究主要有两种:一、将证据处理和合成机制与分类方法的设计相结合,即在单个分类器的设计中用证据理论的方法来提高分类器的性能;二、将证据理论的组合规则应用于多分类器集成,组合多个分类器的结果以获得更高的分类准确率。本文基于证据理论对分类方法进行了深入研究,论文主要工作和创新点如下:(1)在将证据理论的证据表示和合成方法与分类器设计相结合的研究方面,在基于证据理论的k-NN分类算法和局部平均向量分类算法研究的基础上,提出了一种子空间局部平均证据分类算法(Subspace Local Mean Evidence Classifier, SLMEC)。该方法将训练样本集中每个类别的相对于测试样本的局部平均向量视为是对测试样本进行分类的证据,同时该方法在多次随机均等划分得到的多个特征子空间中收集更多的有效证据,然后将所有收集到的证据基于证据理论的证据表示和合成方法进行处理,最终完成对测试样本的分类。SLMEC由于采用了局部平均向量作为分类决策中的证据,因而具有很好的抗噪声和处理不平衡数据的能力,并且由于使用了结合在子特征空间中收集到的证据进行分类决策的方法,使得该方法达到了更高的分类准确率并且在高维数据上具有更好的表现;(2)在基于子空间局部平均证据分类算法(SLMEC)研究的基础上,通过与k最近邻局部超平面分类算法相结合,进一步提出了一种随机子空间证据分类算法(RandomSubspace Evidence Classifier, RSEC)。RSEC仍然采用了在随机划分生成的子空间中进行证据的收集并用于辅助分类决策的方法,但该方法中采用了局部生成的超平面作为对测试样本进行分类的证据。实验结果表明,与SLMEC算法相似,RSEC在不平衡数据和高维数据上也具有很好的表现,并且在UCI基准数据、人工合成数据和高维人脸识别应用中的测试结果显示,RSEC具有很好的分类性能。该研究还进一步表明我们提出的结合原特征空间和子空间中收集到的证据共同进行分类决策的方法的有效性;(3)在将证据理论的组合规则应用于多分类器集成的研究方面,将基于证据理论的多分类器集成方法应用于随机森林算法的多分类器组合阶段,使用基于证据理论的多分类器集成方法取代传统随机森林算法中的简单投票法给出了两种基于证据理论改进的随机森林算法。一种方法为直接使用随机森林算法中决策树基分类器的度量层输出作为基本信任分配,然后使用证据理论合成规则进行多分类器组合;另一种方法是结合Rogova提出的基于证据理论的分类器集成方法来组合随机森林算法中的多个决策树基分类器结果。实验结果表明,两种基于证据理论方法改进的随机森林算法与基于简单投票法的随机森林算法相比泛化性能均有明显提升;(4)在基于证据理论改进的随机森林算法研究的基础上,通过研究集成学习中的两个基本问题,即“如何提高个体基分类器的性能和多样性”和“使用更好的组合多个基分类器的方法”,提出了一种基于证据理论集成的多样性森林算法。该方法中采用决策树分类器作为基分类器,利用了随机子空间方法、Bagging法和基于主成分分析的坐标轴旋转法的叠加效应来产生决策树基分类器算法的多样性;同时该方法采用了不同于传统投票算法的基于证据理论的多分类器集成方法进行多分类器的集成。在UCI基准数据、人工合成数据和语音情感识别应用中的测试结果显示,基于证据理论集成的多样性森林算法与随机森林,决策森林和旋转森林等基于决策树的多分类器集成算法相比具有更好的性能。