论文部分内容阅读
在这个互联网时代,视频和图像主宰着信息媒体。互联网上的图像流量正在无界限地持续上升,例如2012年互联网上每天平均有2.5×1018字节的数据产生。这种大数据现象主要由视频和图像数据造成。然而,由于缺乏对上传到互联网的图像数据的控制,上传到互联网的图像的质量和内容千差万别,加上如传输错误、故意的或者意外的对图像主要内容的遮挡等都会造成图像内容的部分信息丢失。现有的用于图像分类和检索的神经网络学习算法仅依赖于训练样本容易遭受过拟合,从而导致泛化能力低。此外,海量的图像也使得用户从中寻找相关的图像变得越来越低效。为了解决以上问题,在这篇论文我们提出基于敏感度的神经网络学习框架。首先,一个基于随机敏感度度量(Stochastic Sensitivity Measure, ST-SM)的局部泛化误差模型(Localized Generalization Error Model,L-GEM)被提出来训练MLPNN。L-GEM衡量MLPNN在训练样本邻域内的未见样本的泛化误差。然后,我们提出基于结合ST-SM和随机特征删除的学习算法以克服图像分类中由于噪音等原因图像部分信息丢失从而导致分类性能剧烈下降的问题。另一方面,在MLPNN具有超过2个隐含层时,现有的激活函数在使用梯度下降的时候不能有效的传递误差到网络的深层。所以我们提出bi-firing激活函数来缓解深层网络的梯度漫射问题。大规模图像检索需要次线性复杂度的方法,哈希是一种有效的次线性方法,但是哈希通常返回大量不相关的图像。所以,我们提出一个基于敏感度的图像过滤方法以去除哈希返回的不相关图像以提高准确率的同时保持高的召回率。本学位论文主要做了以下四个方面的贡献:1)提出了一个随机敏感度(Stochastic Sensitivity Measure, ST-SM)作为多层神经网络训练的新惩罚项来达到更好的泛化能力。ST-SM衡量训练样本与训练样本附近的未见样本之间输出值之差平方的期望。ST-SM提供了一个直接衡量多层神经网络输出平滑性(复杂度)的度量。我们采用了基于Pareto最优理论的两阶段多目标方法同时最小化训练误差和ST-SM,以寻找最优的网络结构和连接权重。2)提出了一个具有很小饱和区域的可微激活函数以克服现有激活函数导致的深层网络梯度漫射问题。深层神经网络具有更强的表达能力。但是,随着隐含层的数目增加,现有的激活函数在使用梯度下降的时候不能有效的传递误差,从而导致性能差。现有的激活函数如sigmoid有很大的饱和区域。在这些饱和区域中,隐单元对输入的变化不敏感,从而导致梯度漫射。为了缓解这个问题,我们提出了双向发射激活函数(bi-firing)。Bi-firing激活函数是一个具有很小饱和区域的可微函数。3)提出了具有随机特征删除的敏感度度量正则化算法以抵御测试阶段图像由于特征丢失造成分类器性能的剧烈下降。像人脸识别和手写字符识别等物体识别应用,测试阶段被识别物体的部分信息丢失或者部分特征值丢失是常发生的。现有的正则方法没有考虑到这个问题,从而容易导致性能剧烈下降。为了解决这个问题,我们把局部泛化误差模型(Localized Generalization Error Model, L-GEM)推广到具有随机特征删除的情况(Localized Generalization Error Model with Random Feature Deletion,L-GEM-RFD)。L-GEM-RDF同时最小化训练样本和被删除掉部分特征的训练样本副本周围的一个小的邻域内的泛化误差,以同时容忍测试样本特征丢失和小的扰动的情况。4)提出了一个多哈希搜索图像过滤方法以权衡多哈希搜索的准确率与召回率。哈希是一种从大规模数据库中高效检索相似图像的技术,具有次线性(sublinear)的时间复杂度。但是,单个哈希表使用哈希查找的时候具有召回率低的缺点,多哈希表方法使用哈希查找能获得高的召回率但是准确率低。为了解决这个问题本文提出了一个基于敏感度的多哈希表搜索图像过滤方法(Sensitivity based Image Filtering, SIF)来去除不相关的图像以权衡多哈希方法的准确率与召回率。