基于结构分析的可视媒体智能处理技术研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:jqk1981fjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子技术、数字媒体和网络技术的发展,数码相机、智能手机变得越来越廉价和普及,同时以图像和视频为主的可视媒体分享网站如Facebook、YouTube和Flickr等也越来越流行,互联网上的可视媒体信息呈现爆炸式增长趋势。在有力推动社交网络、电子商务等互联网业务繁荣发展的同时,这也引起了数据存储、计算、传输、管理等操作上的困难。因此,针对可视媒体的智能分析与处理技术已经成为信息技术创新的重要方向,也是契合重大社会需求的研究热点,其理论的创新和技术的突破将对可视媒体大数据资源的高效处理与有效利用产生深远影响,有望为互联网企业的大数据业务形成切实的商业价值,开拓广泛的应用前景,其研究具有重大的理论价值和应用意义。  本文围绕可视媒体智能分析与处理的若干热点问题,以可视媒体的结构分析为主线,在可视媒体定制化重压缩、本征图像分解和人脸特征点定位等方面展开了相应的研究,实现并应用了相关算法,论文的主要创新点如下:  (1)提出了网络海量图片定制化重压缩框架。网络图片数量的爆炸式增长和图像分辨率不断增加占据了巨大的网络带宽资源及海量的媒体信息存储空间。针对该问题,本文利用基于边界连续、纹理等图像结构分析的方法实现对图像质量的客观评价,并将图像的主观评价与客观评价统一到一个框架中。该框架包括初始化、图像重编码、客观质量评估、流程控制、主观评价、定制服务等六个模块,能够根据不同的应用需求对网络海量图片进行定制化的高效重压缩,大幅减少网络海量图片运营所需的带宽及存储成本,并提高用户体验。本方法已经在门户网站、电子商务和在线游戏等相关互联网图片业务(易讯网、腾讯网、腾讯微博、SOSO地图、互动娱乐等)中广泛应用,处理图片总数突破1200亿张,可节省大量的带宽和运营成本,提高用户访问速度与体验。  (2)提出基于L0稀疏优化的本征图像分解方法。从单张图像提取其对应的反射率、光照等本征结构是个不适定的问题。本文针对图像反射率的稀疏特性,利用L0范数来约束反射率梯度,使之是高频和稀疏的,以此提取反射率中的主要结构。基于该反射率稀疏先验,利用贝叶斯理论对本征图像分解进行概率建模,将本征图像分解问题转换成极大化后验概率问题。文章同时提出一个优化方法对从后验概率转换得到的能量进行最优化求解,由于L0范数的不可微性,优化方法通过引入辅助变量,以交替迭代的方式不断的逼近最优解。在MIT标准评测集、合成数据集和大量现实图像上的结果显示本文方法可显著提升经典Retinex方法的结果,达到国际先进水平。  (3)提出基于多尺度度量和稀疏性的本征图像分解方法。针对现实场景图片复杂特性,在图像反射率稀疏性先验的基础上,利用多尺度度量构建图像反射率内部间的相互关系,对模型进行约束,实现稳定的求解。方法基于图像内容以自底向上的方式构建图像的不规则金字塔结构,将小尺度上具有相似色度特性的相邻像素相连,也构建大尺度上具有相似区域特性的远距离节点之间的相似度,最后以自顶向下的方式将高层的信息引入到模型中。进一步,本文提出了模型的高效求解算法,算法一般在几次迭代后就收敛。在一些标准评测数据集和各种自然场景图像上的实验结果显示,本文的方法算效率高,且在分解准确度上超过了当前的一些先进算法,达到了先进的水平。本文同时还将本征图像分解的结果应用于材质编辑和颜色转移等应用中,得到了很好的结果。  (4)提出了基于L1稀疏约束的人脸配准算法。人物图片在网络海量图片中占据绝大多数,并且处于相对活跃的状态,人脸特征点蕴含着人脸的几何结构和丰富的语义信息,高效、鲁棒的人脸配准技术可为大规模人脸图像检索、可视媒体管理提供服务。本文对人脸形状的变化比例进行回归,有效降低不同尺度的人脸给人脸配准带来的不利影响;同时,对回归向量施加L1范数惩罚,对其进行稀疏性约束。该稀疏约束可让回归器在不同的阶段自适应地选择不同的特征点进行回归,实现由粗到细的形状调整,在增加模型稳定性的同时有效降低训练模型的大小。方法对人脸所有特征点同时进行回归,可有效保持人脸特征点的几何结构,相关实验结果表明,本文提出的配准算法配准精度高、运行速度快。
其他文献
计算机网络与无线通信技术相结合产物无线局域网(WLAN)作为轨道交通数据通信系统应用的研究已经成为重要发展趋势,切换问题是其中的一个热点研究问题。由于WLAN中无线电台功
支持向量机是在统计学习理论的基础上发展起来的一种机器学习方法,其理论基础是统计学习理论的VC维和结构风险最小化原理。目前,研究人员对支持向量机进行了广泛的研究,并且
网格计算的主要目的为整合互联网上广域的、异构的网络资源,实现跨域的协同工作和资源共享,为用户提供透明的计算能力。为了有效利用网格环境中的海量资源使得在尽量短的时间内
当前,随着城市交通需求量日益增大,交通拥挤等问题严重影响了城市环境。公共交通与其他交通工具相比,具有载客量大等无法比拟的优点,实现公共交通的智能化管理,提高公共交通
随着商业环境的快速变化,以及技术的不断创新,各个行业里的遗留系统面临着越来越大的生存压力。为了改变遗留系统的这些现状,从20世纪90年代以来,涌现出了许多解决办法,大量
互联网的便捷性和跨地域性,使它成为民众表达意见、讨论公共事务、参与政治经济决策讨论的公共平台,伴之而来的就是网络舆情的收集和管理问题。网络舆情具有的传播速度快、地域
模型驱动体系架构(Model-Driven Architecture, MDA)是OMG组织于2001年3月提出的一种新的软件体系结构方法学,其核心思想是抽象出与实现技术无关的平台无关模型(Platform Ind
空间数据模型作为空间数据信息组织和管理的理论基础,在推动GIs发展的过程中起了重要作用。空间数据模型的发展经历了三代:CAD数据模型、Coverage数据模型、Geodatabase数据模
数据爆炸性的增长,面对几何性增长的数据,我们的个性计算需求也日益加强,具有高计算能力的云计算正被大众所接受。云计算服务因其提供的服务成本低并且质量高,不断受到大众的
数学表达式是科技信息的重要表达形式,实现数学表达式检索有助于科技信息的高效交流与利用。针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问