论文部分内容阅读
在数据挖掘领域中,分类是一种非常重要的技术。分类器集成技术是将多个不同的单分类器组合成一个分类器,以提高原分类器的分类性能。其中,AdaBoost算法是一种典型方法。限制性贝叶斯分类器是分类技术研究领域的热点之一。
本文首先介绍分类的概念以及相关技术。其次,叙述了分类器集成相关技术,包括Bagging、Boosting和Stacking,重点分析了Boosting方法中AdaBoost算法的理论基础与关键步骤。进而,在阐述限制性贝叶斯分类器的相关概念和理论基础上,分析了朴素贝叶斯分类器、TAN分类器、爬山法分类器和SP分类器的理论基础和分类器结构,比较各个算法的优缺点,并且在Weka平台上实现了这些分类器。另一方面,还分析了隐藏朴素贝叶斯HNB分类器,包括概念、分类器的结构以及隐藏节点的构造过程,描述了该算法流程。在这些研究工作的基础上,提出了一种新的组合分类器算法BoostTHNB。该算法在HNB分类器的基础上引入了一颗树的结构,在树的叶子节点上创建了HNB分类器;树节点分裂方式依据HNB分类器的训练错误率,如果分裂后子节点的训练错误率小于原来未分裂的训练错误率则进行节点分裂,否则不予分裂。改造后的分类器称之为树形隐藏朴素贝叶斯THNB分类器;再以AdaBoost算法作为分类器集成的方法,将THNB分类器作为基分类器进行分类器组合。最后,通过实验比较了新组合分类器和原有隐藏朴素贝叶斯分类器以及一些经典分类器算法,包括朴素贝叶斯分类器、TAN分类器和决策树分类器。实验结果与分析表明,该组合分类器在绝大多数数据集上可以提高原有分类器的分类性能。