论文部分内容阅读
数据挖掘中主要内容为分类,聚类,预测等。本文主要研究数据挖掘中的分类算法,以PAC为理论学习依据,提出的集成算法。这种算法是通过寻找一些比随机猜测稍好的一些分类器,将他们通过加权投票原则组合成强分类器,这就避免了直接寻找一个分类准确率较高的分类器。文章介绍了集成算法中经典算法,主要是AdaBoost算法和一种改进后的AdaBoost算法,分析了泛化误差与分类器的间隔之间的联系。同时Breiman提出了算法的泛化性能取决于最大化最小间隔,并给出Arc-Gv算法; Schapire提出算法的泛化性能取决于间隔分布的定理,随后研究者发现一个好的优化间隔分布对于泛化性能尤为重要,提出了优化间隔分布的AdaBoost-QP算法。研究者提出了AdaBoost-QP算法的思想——在间隔满足高斯分布的前提下,建立一个优化间隔分布的模型。本文主要是依据此思想对一种改进后的AdaBoost算法进行优化间隔分布。利用改进后的AdaBoost算法每次迭代产生的分类器,建立一个目标函数为分类器的平均间隔与间隔方差的二次规划,求解出弱分类器相应的权重系数,利用投票加权得到最后的组合分类器使间隔分布得到优化。依据影响一个算法泛化性能的关键因素为间隔分布,并通过实验表明最后改进的算法的泛化性能有所提高。