论文部分内容阅读
近年来,随着电子技术、数字媒体和网络技术的发展,数码相机、智能手机变得越来越廉价和普及,同时以图像和视频为主的可视媒体分享网站如Facebook、YouTube和Flickr等也越来越流行,互联网上的可视媒体信息呈现爆炸式增长趋势。在有力推动社交网络、电子商务等互联网业务繁荣发展的同时,这也引起了数据存储、计算、传输、管理等操作上的困难。因此,针对可视媒体的智能分析与处理技术已经成为信息技术创新的重要方向,也是契合重大社会需求的研究热点,其理论的创新和技术的突破将对可视媒体大数据资源的高效处理与有效利用产生深远影响,有望为互联网企业的大数据业务形成切实的商业价值,开拓广泛的应用前景,其研究具有重大的理论价值和应用意义。 本文围绕可视媒体智能分析与处理的若干热点问题,以可视媒体的结构分析为主线,在可视媒体定制化重压缩、本征图像分解和人脸特征点定位等方面展开了相应的研究,实现并应用了相关算法,论文的主要创新点如下: (1)提出了网络海量图片定制化重压缩框架。网络图片数量的爆炸式增长和图像分辨率不断增加占据了巨大的网络带宽资源及海量的媒体信息存储空间。针对该问题,本文利用基于边界连续、纹理等图像结构分析的方法实现对图像质量的客观评价,并将图像的主观评价与客观评价统一到一个框架中。该框架包括初始化、图像重编码、客观质量评估、流程控制、主观评价、定制服务等六个模块,能够根据不同的应用需求对网络海量图片进行定制化的高效重压缩,大幅减少网络海量图片运营所需的带宽及存储成本,并提高用户体验。本方法已经在门户网站、电子商务和在线游戏等相关互联网图片业务(易讯网、腾讯网、腾讯微博、SOSO地图、互动娱乐等)中广泛应用,处理图片总数突破1200亿张,可节省大量的带宽和运营成本,提高用户访问速度与体验。 (2)提出基于L0稀疏优化的本征图像分解方法。从单张图像提取其对应的反射率、光照等本征结构是个不适定的问题。本文针对图像反射率的稀疏特性,利用L0范数来约束反射率梯度,使之是高频和稀疏的,以此提取反射率中的主要结构。基于该反射率稀疏先验,利用贝叶斯理论对本征图像分解进行概率建模,将本征图像分解问题转换成极大化后验概率问题。文章同时提出一个优化方法对从后验概率转换得到的能量进行最优化求解,由于L0范数的不可微性,优化方法通过引入辅助变量,以交替迭代的方式不断的逼近最优解。在MIT标准评测集、合成数据集和大量现实图像上的结果显示本文方法可显著提升经典Retinex方法的结果,达到国际先进水平。 (3)提出基于多尺度度量和稀疏性的本征图像分解方法。针对现实场景图片复杂特性,在图像反射率稀疏性先验的基础上,利用多尺度度量构建图像反射率内部间的相互关系,对模型进行约束,实现稳定的求解。方法基于图像内容以自底向上的方式构建图像的不规则金字塔结构,将小尺度上具有相似色度特性的相邻像素相连,也构建大尺度上具有相似区域特性的远距离节点之间的相似度,最后以自顶向下的方式将高层的信息引入到模型中。进一步,本文提出了模型的高效求解算法,算法一般在几次迭代后就收敛。在一些标准评测数据集和各种自然场景图像上的实验结果显示,本文的方法算效率高,且在分解准确度上超过了当前的一些先进算法,达到了先进的水平。本文同时还将本征图像分解的结果应用于材质编辑和颜色转移等应用中,得到了很好的结果。 (4)提出了基于L1稀疏约束的人脸配准算法。人物图片在网络海量图片中占据绝大多数,并且处于相对活跃的状态,人脸特征点蕴含着人脸的几何结构和丰富的语义信息,高效、鲁棒的人脸配准技术可为大规模人脸图像检索、可视媒体管理提供服务。本文对人脸形状的变化比例进行回归,有效降低不同尺度的人脸给人脸配准带来的不利影响;同时,对回归向量施加L1范数惩罚,对其进行稀疏性约束。该稀疏约束可让回归器在不同的阶段自适应地选择不同的特征点进行回归,实现由粗到细的形状调整,在增加模型稳定性的同时有效降低训练模型的大小。方法对人脸所有特征点同时进行回归,可有效保持人脸特征点的几何结构,相关实验结果表明,本文提出的配准算法配准精度高、运行速度快。