基于多视图学习的大规模图像分类的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:jinghong_22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类是机器学习的一个重要应用。它不仅可以给其他图像相关任务如检索,物体检测提供支持,并且在实际应用中也有着广泛的需求。一般来说图像分类的泛化性能不但和分类器的选用相关,更加依赖于图像特征的选用。随着互联网与智能设备的发展,越来越多的图像数据被产生,同时,图像分类的载体也逐渐从计算能力偏强的计算机向移动设备转移,如果采用传统的图像特征抽取、图像分类策略则不能适应这一变化。如何快速并且准确的对大规模移动设备采集的图像进行分类已经成为了一个重要的研究课题。当前图像分类所使用的特征涉及颜色、纹理、形状、特征点等,而分类系统大多将这些特征直接拼接或者加权加以利用,未必能够充分利用特征提供的信息。而在半监督学习领域,多视图学习成为了研究者的关注对象。利用多视图学习可以充分利用未标记样本的信息,提升学习器的泛化性能。如果将不同种类的图像特征视为描述图像的多个视图,则多视图学习可望能够整合各个特征所提供的信息。特别的,对一些实时性要求较高的环境,必须要对特征做出取舍的情况下,通过多视图学习也可以选择较优的组合。不仅如此,还可以通过对不同特征所提供的不同信息来进行互相帮助,从而提高单一特征的区分度。另一方面,在对大规模图像分类,基于单机的分类器无论是在时间上还是在空间上都难以胜任海量数据。所以需要将传统的机器学习算法移植到各种分布式处理平台上。如何改造图像分类方法同时满足平台的要求并且兼顾算法的效率也是一个值得研究的问题。本文分别针对图像中的特征多视图问题、特征抽取效率问题和海量数据问题进行了研究,提出了解决方案:第二章提出了AMC算法,该算法在训练阶段利用强视图的特征来辅助较弱的视图进行学习,通过让弱视图的分类器能够在大量的未标注样本上取得和强视图一致的效果,从而增强弱视图分类器的泛化性能;同时在测试阶段,只需提取弱视图特征,就可以利用使用弱视图的分类器进行预测,并达到较好的效果。第三章提出了特征按序抽取的DFE算法。该算法利用特定样本特征的重要性进行排序从而可以先提取重要的特征,并使得每个样本都具有特定的特征抽取序列,从而使得算法可以提取部分重要特征的情况下就可以达到甚至超过提取所有特征的分类精度。第四章提出了能够解决大规模图像分类问题的并行化支持向量机,即在Map-Reduce框架下的LS2VM算法。该算法通过将多分类问题转换为多个二分类问题,将支持向量机并行化。同时利用缓存支持向量的方法突破单个节点的内存限制,从而使得算法可以高效的运行在Map-Reduce框架下对图像进行分类。
其他文献
本文介绍了一个面向分布式地理信息系统的空间数据库系统——SDB的设计与实现。该系统采用软件组件模型,符合OpenGIS规范,具有互操作性,支持数据共享和功能共享,易于GIS软件的集
该文提出面向业务的全面网络管理的思想,建立了以业务为核心的网络故障管理模型.该模型由网络业务拓扑、网络业务依赖图和故障-告警因果关系图有机组成,其目的是区分网络上运
基于Web的全局联网销售系统(WSMIS)是一个以鹤壁矿务局煤炭销售系统为背景的集外运、地销、合同计划、远程销售、领导查询等为一体的自动化管理系统,其特点是方便快捷的Web数
论文在分析网络传输特点和实时多媒体特性的基础上,针对IP网中实时多媒体应用存在的QoS控制问题,提出了一种分布式分层自适应QoS控制模型.该论文详细介绍了QoS控制模型在Wind
如今,软件需求一直在以极高的速度增长;软件应用从早期的硬件系统附属物变成了与用户、组织、社会系统具有直接而密切的关系;系统的软件复用已经导致软件开发范例(Paradigm)的革命
云计算的出现与发展正在改变人们使用计算资源的方式,借助于“云”,用户不再需要自己购买和维护硬件设备,而是通过向“云”提供商租用计算资源的方式,去执行其任务。基础设施
当今世界,数据每天都在迅猛增长。人们保存如此大量的数据,一是因为计算机技术的发展使之变得方便可行,二是因为这些数据有巨大的潜在作用。由此而产生的数据挖掘概念引起了广泛
随着Internet的发展和完善,速度的不断提高,越来越多的企业开始通过使用隧道技术在Internet上构建自己的私有企业网络。隧道技术是将一个数据包作为净荷封装在另一个数据包中进
该文主要对低码率视频编码和质量可扩展编码这两方面进行了研究,提高了低码率下视频编码的速度和质量可扩展视频编码的编码效率,其中已取得的重要研究成果有以下四点:第一,提
该文提出采用混合测试策略,利用数据挖掘技术挖掘有指导测试意义的规则,从技术上缩短测试序列,加快诊断速度.首先,该文在介绍基于模型诊断主要思想、测试的基本理论和数据挖