基于约束的多视图集成学习方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:goodcareer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习的许多实际问题中数据有多个视图,各个视图间有着互补信息和相关信息,可以通过对这些信息的挖掘来提高学习的性能。然而由于先验知识的缺乏,如何在多视图学习利用多个视图改善学习性能显得尤为重要,作为提高算法泛化性能的重要手段集成学习也因此被运用于其中,形成了多视图集成学习。然而,大多数现有的多视图集成学习方法在不同视图上独立、交替地训练分类器,这些方法利用了视图之间的互补信息却忽略了相关信息。在机器学习领域,典型相关分析常用于分析不同视图间的相关,提取不同视图间的相关特征,因此本文以典型相关分析作为基础对多视图集成学习进行了研究。在集成学习中,基分类器的差异性至关重要,现有的很多集成学习方法都是通过重采样样本或特征来实现。另一方面,由于样本间的相似性或不相似性约束的数目通常远多于样本数,因此对约束重采样有潜力获得比对样本重采样更好的多样性。本文围绕多视图集成学习,引入约束信息以获得更好的学习性能。同时为了适应实际应用的需求,对算法进行了扩展研究,使之适用于有样本缺失的情况。本文提出了一种基于约束的多视图集成学习算法,称为约束相关集成,并给出了该算法实现的两个版本。首先,我们将约束信息引入到多视图的集成学习中,利用对约束信息的随机采样获得基分类器的差异性,采样方式有bagging策略和boosting策略,分别对应于算法的两个版本,随后采用带约束的典型相关分析方法对多视图数据特征进行抽取与融合,并对信息融合后产生的新的训练样本进行训练获得基分类器,最后对各分类器进行集成。据此,我们保留了样本在不同视图之间的相关信息,同时引入了约束作为监督信息。在手写体数据库及人脸数据集上的实验说明了本算法的有效性。其次,本文考虑了有样本缺失的情况,由于传统的典型相关技术要求样本必须成对出现,在有样本缺失的情况下,以上算法并不适用。本文利用了类内相关与类间相关的思想,打破了样本必须成对出现的约束,对一些多视图集成算法包括随机相关集成以及约束相关集成的两个版本进行了推广,使之适用于样本缺失的情况。实验结果证明本算法对于样本缺失数量具有相对不敏感性,即在实际应用中有着较好的鲁棒性。
其他文献
近年来网络和信息技术的高速发展,越来越多的行业、单位都实现了业务和管理的信息化,分别建立起针对各自业务功能的应用系统。在来自越来越多的不同厂商的设备里而不可避免的
支持向量机的参数选择直接决定着支持向量机的泛化性能,模型选择是支持向量机的基本问题。组合支持向量机的泛化性较单个支持向量机有一定程度的提高,但是,组合支持向量机方法的
随着高速公路联网收费的运营,产生了大量的历史数据。利用这些历史数据结合交通运输行业背景获得以运输量为核心的指标数据,将交通量指标和运输量指标相结合,用以全面了解高速公
随着测量卫星的相关技术发展,三线阵CCD数据采集设备成为传输型摄影测绘卫星的主要传感器之一,依据CCD测量数据进行观测目标的理解是该领域重要研究内容。本文基于嫦娥一号月球
蛋白质的翻译后修饰(PTM)是蛋白质在翻译后存在的一种化学修饰,它是蛋白质生物合成的后续步骤之一,因此许多蛋白质基因表达也是依赖于PTM而存在的。一个蛋白质(也称为多肽)是一
HLA体系结构是一个分层次的、开放的、支持面向对象的体系结构。论文利用电力系统仿真技术和虚拟技术,实现了基于HLA架构的变电站三维仿真培训系统。解决了现有系统重用性低、
随着网络信息技术的发展和普及,人们逐渐从信息匮乏的时代走入了信息过载的时代,传统搜索引擎已经越来越不能满足用户对于个性化数据的需求,因此,个性化推荐作为一种有效的解
随着Internet的迅猛发展,信息呈现了爆炸式的增长,这种现象必然会造成信息过载,使得人们更迫切的希望从海量信息中找到自己感兴趣的内容。信息检索在一定程度上解决了人们检
随着云计算技术的发展和成熟,应用云计算技术的企业与个人数量显著增加。随着云计算的发展,新的问题与需求,即云集成问题,也随之而来。云集成需求期望使处于不同云环境中的云服务
近年来,三维网格动画被广泛应用于在线三维游戏、远程医疗系统等不同领域。为了表现强烈的真实感,三维网格动画的细节信息不断丰富,从而导致数据量呈指数倍扩大。因此设计有效的