论文部分内容阅读
随着互联网及多媒体技术的迅猛发展,数字图像、视频等视觉数据呈现爆炸式增长,深刻影响着人类社会的方方面面。面对互联网上的海量视觉数据,如何利用计算机代替人类对其进行智能化处理与理解,已经成为一种迫切的需求。视觉数据识别技术作为计算机智能视觉分析中的关键技术,尽管目前已经取得一定研究进展,但是在实际应用中仍然受到光照变化、视角变化、遮挡等多方面环境因素的阻碍。因此,寻求有效的视觉特征表示方法成为视觉数据识别中的核心问题。稀疏表示及纹理特征是当前非常流行的两种视觉特征表示方式,也是本文的主要研究对象。视觉数据能够在特定变换域中得到稀疏表示,是视觉稀疏表示理论的基本假设;这一观点也被人眼视觉感知机理的相关研究成果所部分支持。目前基于信号稀疏表征的机器学习方法在计算机视觉及模式识别领域中备受关注,并在诸多视觉数据识别应用中取得良好的效果,但仍然有很大提升空间。此外,由于纹理在各类视觉数据中无处不在,因此对其进行有效分析描述是视觉数据识别任务的基础性研究课题。虽然过去取得不少研究成果,但是在纹理区分能力及对各种环境变化的鲁棒性方面,当前纹理描述方法还有待改善。本文以视觉特征表示为主线,以稀疏编码、局部模式编码及分形分析为工具,对视觉数据识别的若干关键技术及其应用进行研究探讨。本文的主要研究内容与创新点如下:1.本文提出一种基于迭代重加权l2,1最小化的结构化稀疏编码方法(Reweighted l2,1 minimization based dictionary learning for Structured Sparse Coding, RL21-SSC).RL21-SSC方法通过使用迭代重加权而非标准l2,1范数对每个类别的样本表示进行结构化稀疏约束,可以有效防止稀疏表示大系数上的偏置。而且,RL21-SSC方法所学到的字典能够自适应于每个类别样本所处的子空间,从而促使不同类别拥有不同的结构化稀疏模式。同时,RL21-SSC方法在人脸识别、场景分类及行为识别上的一系列实验中取得了良好的分类效果。2.本文提出一种基于分类器集成的有监督稀疏编码方法(Ensemble Classifier based Dictionary Learning, ECDL/EasyDL)。EasyDL方法通过把子空间集成学习嵌入到有监督稀疏编码中,实现字典学习与集成分类器训练的耦合。而且,通过EasyDL方法所产生的稀疏表示,具有很强的可区分性与较弱的训练数据特性依赖性。针对EasyDL模型,本文提出一种有效的数值解法,从而实现字典与集成分类器的同时更新。在一系列视觉数据识别任务中,EasyDL方法取得比很多经典有监督稀疏编码方法更优秀的分类性能。3.本文提出一种基于层次组稀疏性的判别结构化稀疏编码方法(Collaborative HIerarchicaL Discriminative Dictionary Learning, CHILD-DL)。CHILD-DL方法通过在目标函数中引入类相关的层次结构稀疏正则项,使得同类样本在分组层面上拥有相同的稀疏模式的同时在个体层面上容许稀疏模式存在差异。同时,CHILD-DL方法通过在字典学习过程中嵌入线性分类器训练,进一步提高了稀疏表示的可区分性。针对人脸识别、物体识别及场景分类等应用,本文将CHILD-DL方法与几个国际领先的判别稀疏编码方法进行实验对比,实验结果验证了其有效性。4.本文提出一种基于间隙度分析的静态纹理特征描述子,即模式间隙度谱(Pattern Lacunarity Spectrum, PLS)。PLS描述方法对纹理图像应用旋转不变等价局部二值模式算子,并通过使用间隙度分析对所得到的局部模式在空域上分布的自相似性行为进行刻画,得到该图像的特征表示。同时,PLS描述方法在四个公开静态纹理数据集上的分类实验中,都取得国际一流的分类效果。5.本文提出一种基于间隙度分析的动态纹理特征描述子,即时空模式间隙度谱(Space-Time Pattern Lacunarity Spectrum, ST-PLS)。ST-PLS描述方法通过在动态纹理序列在三个正交时空平面上的二维切片上应用两种有效的局部模式编码策略,并通过间隙度分析对时空局部二值模式在三个时空平面上分别表现出的统计自相似性进行刻画,得到该动态纹理的特征表示。同时,ST-PLS描述方法在两个基准动态纹理数据集上的分类实验中,都取得国际一流的分类效果。