集成分类器边界理论的实验研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ding_zh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成分类器算法(Boosting)是当今机器学习领域最成功的分类算法之一。Boosting算法在大部分标准测试集上的表现出了良好的分类性能,因此吸引了很多学者对其拥有如此良好的泛化能力进行理论研究。而Boosting算法的Margin理论解释.是其中最有影响力的工作之一。Margin理论是由一系列的关于集成分类器(voting classifier)的泛化错误率上界组成。由于其中用到了训练集合上的margin(详见第二章),故此得名。最近,[Wang et al.,2008,2011]提出了Equilibrium margin(Emargin)上界,紧于以前提出的所有上界。Emargin理论的主要结论是:集成分类器在训练样本上的margin分布的好坏对其泛化能力具有重要影响。Emargin的提出部分上解决了学习领域关于Boosting算法的margin理论之争。(详见第二章)。本文的主要工作在于通过实验方法,利用直接优化Emargin上界的算法——EEM——验证Emargin理论的准确性。EEM对已有集成分类算法(如Ada,Boost)得到的组合分类器的系数进行优化,使得生成的组合分类器的Emargin上界小于原有集成分类器Emargin上界,并比较二者的测试错误率,如果后者的错误率优于前者,则可以从实验上证明Emargin理论是对Boosting算法的合理解释。本文对当前主流的三种集成分类器算法AdaBoost,LogitBoost和Bagging进行了测试,并在17(12个大数据集,5个小数据集)个UCI标准测试数据集[Asuncion and Newman,2007]上进行广泛的实验。利用决策树桩(Decision Stump)和四层决策树作为基本分类器的实验结果表明Emargin理论与实验结果项符合,初步验证了Emargin理论。但是由于决策树函数集的复杂度难以控制,组合的基本分类器往往具有不同的复杂度,而Emargin理论的一个应用前提就是组合分类器的每个基本分类器具有相同的复杂度,从而削弱了我们的结论。因此,我们采用较好控制复杂度的弱分类器——Stump Product——作为基本分类器,并针对不同的集成分类器算法设计了新的迭代优化算法生成基本分类器。然后,再次在17个数据集上进行比较实验,实验结果依然符合Emargin理论的预测结果,从而进一步验证了Emargin理论。
其他文献
问题解决是人类最重要的高级智能活动之一。启发式搜索可以提高问题解决效率,是人类和AI(Artificial Intelligence)问题解决的基本方法,也是人工智能和人类智能之间存在差距
数字电路演化设计是演化硬件(EHW:Evolvable Hardware)的一个分支,演化硬件是指用演化算法等智能计算方法自动地设计电路系统。到目前为止,遗传算法、演化策略、基因表达式编
当今世界,经济活动日益频繁,从传统的加工制造、工程建设,到环境、医药、信息产业,所有的活动无不是经有组织的计划,投入人力、物资、资源等,协调人、财、物、时间、市场等各
随着计算机网络技术的迅速发展,Internet逐渐渗透到政府、工业、教育、国防领域,网络在方便地带来大量信息的同时,也带来了病毒、木马、蠕虫等诸多安全问题,特别是木马,严重
计划评审技术(Program Evaluation and Review Technique,PERT)是在给定的系统项目中对潜在任务进行分析的一种方法。其建立的目的是为了简化大而复杂项目的计划和分配任务的
遥感图像是卫星遥感器或其他传感器通过特定途径对地面进行拍摄所形成的图像,获取图像需要经过多个环节,如:大气、云层、遥感器成像、电子信号传输等,而每个环节都有可能对遥
在计算机图形学领域,随着人们对艺术风格绘制需求的不断增强,非真实感绘制已经吸引了人们的注意,并拥有广阔的应用前景。本文模仿艺术家绘制作品的方式,对二维图像的水墨风格
随着计算机可视化和图形技术的发展,三维空间数据场的可视化已经在科学计算、工程、医学等领域得到广泛应用。用传统的二维图像或面绘制方法对采集的三维地震数据进行解释只是
自古以来,探索宇宙空间一直是人类不懈追求的梦想。上世纪下半叶开始,随着航天技术的兴起和发展,人类开启了探索宇宙空间的新时代。半个多世纪以来人类的航天活动取得了丰硕
20世纪60年代以来,高光谱遥感(hyperspectral remote sensing)技术取得了空前的发展,在高光谱遥感应用领域中也取得了很好的实际效果。该技术的利用改变了人类以前依靠可见光