论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,其中决策树算法以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。
然而决策树算法是不稳定的,为了提高决策树的分类性能,本文引入了集成学习技术。集成学习是一种新的机器学习范式,它使用多个分类器来解决同一个问题,能够显著地提高学习系统的泛化能力。因此从20世纪90年代开始,对集成学习理论和算法的研究成为机器学习领域的一个热点。
本文围绕决策树和集成学习理论进行了相关的研究,主要研究工作包括:
1.ID3算法是最具有影响的一种决策树生成算法。该算法根据属性的信息增益来选择分裂属性,但是易偏向于选择属性值个数较多的属性,而属性值个数多的属性却并不一定是最优的分裂属性。为了克服ID3算法的不足,将熵均值决策与样本分布决策进行了融合,本文提出了一种新的决策树构造算法MIDT(MultipleInformation Decision Tree)。实验表明,MIDT算法在分类正确率和稳定性上优于ID3算法和参数估计决策树算法。
2.单变量决策树算法造成树的规模庞大,规则复杂,不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法DTRD(Decision Tree based on Rough set and Dispersion degree)。在UCI上部分数据集的实验结果表明,我们提出的多变量决策树算法的分类性能与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。
3.集成成员分类器之间要有一定的差异性,否则集成在一起意义不大。由于差异性度量没有统一的定义,研究人员提出了多种不同的差异性度量方法。我们在分析常用的差异性度量基础上,提出了一种新的分类器差异性度量方法CDEC(Correctresults,Disagreement and Exponential Count of errorS)。综合考虑了集成中两个分类器对模式分类一致正确、分类不一致情况,同时抑制了分类器同时发生分类错误的情况,并以此为基础提出了一种新的分类器选择性集成方法。在UCI上部分数据集的实验结果表明,CDEC能有效的度量分类器之间的差异性,并能较好的用于选择性集成中成员分类器的选择过程。
4.AdaBoost算法对噪声很敏感,在训练样本具有噪声数据时,分类性能较差。我们提出了一种用于噪声数据分类的局部Boosting算法,即LAdaBoost。其主要思想是:在每次迭代过程中,计算每个训练样本的局部错误率,利用局部错误率更新样本被选作用于训练下一个分类器的概率。对一个新的样本进行分类时,考虑了该样本和它邻域内的每个训练样本的近似度。在UCI部分数据集上的实验结果表明,LAdaBoost算法比AdaBoost和Bagging算法分类更有效,且鲁棒性较好。