多类别特征共享集成学习研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:yedixx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多分类问题(至少为三类)是机器学习和计算机视觉领域里需要研究的重大问题之一。随着计算机技术的发展,多个类别的模式分类在各种电子产品中有着广泛的应用,因而多分类问题越来越受到人们的关注。多分类问题需要同时优化多个分类边界,因而更难以解决。尤其类别数较多时,训练集通常伴随着大量训练样本和高维特征,难以用一个合适的数学模型来建模,如果要高精度的分类器,就需要大量的计算。虽然目前对多分类问题已经有许多建模方法,其中一些算法对大多数据集有较高的识别精度,但是它们都有各自的缺陷,仍需要进一步的完善。  多分类问题是一个监督学习问题(即训练集中每个样本的类标是已知的),关键在于如何利用训练集建立一个分类模型,使其能够对任意输入样本准确的分类。标准的多分类问题在预测时,限定输入样本类别所属的集合是和训练集一致的;如果没有这个限定,则多分类器需要对输入样本进行进一步识别,如果不属于训练集中任何一类,需要对输出结果做特别说明,比如多目标检测。本文研究的范围不包括后者,针对的是标准的多分类问题,包括基于Boosting集成学习的多分类理论,多分类器结构组织,特征共享等方面,具体如下:  1)本文提出了一种以Boosting集成学习为核心的后验概率估计模型,作为多分类器的理论基础。通过概率模型可以有效的解决以下三个问题:第一,训练集样本不均衡会导致各类无条件概率之间的比值发生变化,从而影响概率输出和分类精度,而概率模型能够有效的对分类器进行校准,降低不均衡的影响;第二,如果分类错误要承担风险损失,那么需要对分类结果进行风险评估,概率模型能够结合概率和损失参数计算每类置信度,从而给出最优结果;第三,以概率估计视角诠释AdaBoost算法,拓展并完善了Boosting模型的理论。  2)将多分类问题转化为二分类问题求解是对多分类器建模的主要方法,然而如何将二分类器集成为多分类器并用于预测,目前没有理论可依。针对上述问题,本文提出一种以后验概率为基础的建模方法来构造多分类器。该方法通过后验概率来描述分类器,并依靠统计理论寻找这些概率之间的关系,依此将二分类器组织为多分类器。通过该方法对“一对一”模式进行建模,可以得到每类的后验概率的解析形式,比目前的极限求解方法更近一步。同时,为了保证分类器输出结果的鲁棒性,本文提出了一种新的预测准则。该准则逐轮淘汰置信度低的类别而留下后验概率数值比较大的类别,从而得到稳健的分类结果。  3)本文从特征共享角度来提高分类器性能,提出了一种新的弱分类器结构,称之为复合树桩。复合树桩是一种特殊的树桩结构,能够利用一个特征对多个类别输出相对应的置信度,因而多分类的Boosting算法选择复合树桩作为弱分类器比决策树桩的收敛速度快。为了提高分类器的精度,本文将加稀疏约束的加权回归模型和基于复合树桩的Boosting算法结合,形成一种新的算法。由于复合树桩结构的特殊性,该算法虽然是以Boosting迭代为核心,却具有神经网络结构,是一种前向的神经网络算法。  4)基于上述理论,本文从层次学习和广度拓展两个方向进一步提高分类器性能。广度拓展主要是通过多个并列的网络结构集成多分类器或者增加神经元个数来提高识别精度。分层学习主要是通过多层带权重的线性回归叠加的方式对特征空间进行线性变换,得到区分能力更强的新特征。这些新特征都是由原来的特征通过稀疏向量加权得到的,因而最后得到的变换矩阵也是稀疏的。分层训练时可以分批计算,因而对于训练集特征维数较高时,可以加快计算效率。另外,层次学习对一些特定的特征可以进行位置约束,从而得到更好的识别结果。目前特征学习得到的底层特征,大多是类似边条的卷积核特征,和图像卷积后得到相应的特征图。本文提出的模型在训练时对这些特征图施加位置约束,从而得到相同类别的目标的各个部件在位置上的固有关系,以期得到更好的分类效果。
其他文献
随着因特网的迅速发展和普及,web资源日益丰富,资源的构建者可以是各个不同的组织或个人,资源没有统一的组织与管理,因此Web上的信息资源有着海量、动态、异构、半结构化等显著特
基于机器视觉的反求加工技术是近十几年来在快速成型加工领域涌现出来的一项新兴技术。它在现代化制造、模具加工、自动化装配等领域有着广泛的应用需求,是自动化制造设备中的
自主移动机器人是具有独立的记忆、推理、决策和行动能力的机器人。在自主机器人的相关技术研究中,导航技术是核心技术,也是实现机器人真正智能化和完全自主移动的关键技术。
在温室环境中,众多环境因子影响着作物的生长,各环境因子又是相互影响、相互制约的。如何从作物生长的角度出发,协调控制各个温室设备,创造利于作物生长的环境,一直是温室控制研究
随着计算机技术迅速发展和石化行业中对大型储罐需求的逐日增加,人们对储罐地基提出了更高更新的要求,在此背景下中国石化集团2006年提出了科技攻关项目“大型储罐地基设计系统
减摇鳍电液负载仿真台是一种在实验室条件下模拟减摇鳍运动时所受海浪载荷影响的装置。它是一个典型的被动式电液力控制系统,主要由加载系统和驱动系统两部分组成。在工作过
本课题针对电力系统管理自动化和网络化的需求,依托中国移动通信集团公司的GPRS网络,构建了一个无线的、实时的电力参数监控系统。 系统可以分为三大部分:电力参数数据采集、
本文是以国家自然科学基金面上项目《一类非线性系统辨识建模理论与方法的研究》为背景展开的。作者在查阅了大量的相关文献资料的基础上,就如何只利用系统输出数据而不直接
本文以上海大学机电工程与自动化学院和上海自动化仪表股份有限公司DCS分公司的横向合作项目“SUPMAX先进控制软件及无线扩展功能开发”为项目背景,项目涉及SUPMAX先进控制软
随着城市发展的不断加快,机动车辆的持续增加,城市交通问题变得越来越严峻。城市交通系统是一个时变的,具有随机性的复杂系统。近年来,模糊交通系统已经成为交通控制研究的主