基于人脸特征定位和建模理论的视频编码关键技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hnkfxndz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸作为人类区别于其他生物的关键特征之一,在人际交往及社会活动中扮演着主要信息载体的角色,因而对其进行全面而深入的研究具有十分重要的理论和现实意义。随着实时多媒体服务的兴起,视频会议、可视电话、新闻播报等应用都与人脸有着直接或间接的联系。伴随这些应用的广泛推广,人脸研究的重要性更是与日俱增。在视频编码及通信界,通常会用“会话视频序列”来对上述应用加以概括。本文即以会话视频序列为研究主体,结合人脸检测、特征定位及模型构建理论开展相应的视频压缩方法和技术路线研究。在经典的视频压缩理论中,所有的帧图像及编码单元都基于同等重要性而被顺序编码。随着研究的深入,人们逐渐意识到视频编码算法的评价指标除了压缩率和峰值信噪比(Peak Signal to Noise Ratio, PSNR)之外,还应考虑“感兴趣区域(Region of Interest,ROI)”的编码质量。事实上,使用者往往以对ROI压缩效果的主观感受的好坏来直接评价视频编码结果的可接受程度。因此,如何保证或提高会话视频序列中人脸ROI的编解码质量是当前会话视频编码领域中亟待研究的前沿课题。本质上,网络带宽、计算能力等编码资源的限制和有效信息在传输过程中的丢失是制约视频编码图像质量的主要因素,其在低带宽、高误码率应用的实时会话视频编码中的影响尤为突出。因此,本论文探讨了两种对人脸ROI予以侧重的编码策略和一种解码端的差错掩盖方法,以实现在给定的信道条件下达到最佳的人脸ROI的主客观视频质量。首先,论文提出了一种用于人脸区域及其特征保持的比特分配及资源优化方案。方案考虑了三个方面的预处理工作。第一,为实现人脸ROI的快速提取,利用人脸区域在会话视频序列中丰富的运动特征,精简了传统Adaboost人脸检测算法中庞大的金字塔式候选图像子集。第二,为保证所提取人脸ROI的准确性,结合肤色特征完成了人脸ROI的辅助确认。第三,为获取人脸轮廓及其他面部特征的宏块(Macro Block,MB)位置,对Snake算法和主动轮廓模型(Active Shape Model, ASM)的搜索范围、收敛方向及能量平衡态判决条件等算法参数的选择方法进行了优化。在参考人脸结构特性为各编码MB赋予特定比特分配优先级的基础之上,方案设计了相对精确的MB级绝对差均值(Mean Absolute Difference, MAD)自适应预测模型和量化参数(Quantization Parameter, QP)更新算法,从而完成了有侧重的比特分配。方案还根据对MB编码模式和其他编码条件的深入分析完成了进一步的资源优化。模拟实验表明,本方案实现了人脸ROI的快速提取及相关特征的较准确检测,优化了编码比特和其他资源的分配方式,较好的保证了人脸ROI及其特征位置的编码质量。与JM9.8中传统比特分配算法及相关参考文献中比特分配算法的实验结果对比显示,在相同编码比特率情况下,本方案人脸ROI的PSNR获得了提高。同时,比特分配与编码资源的优化配置相结合缩小了本方案编码器的帧级目标比特与实际比特的误匹配差距及总体编码耗时。另外,主观测试也进一步验证了本方案能提供视觉效果更好的视频重建质量。其次,论文介绍了视频编码中的全局率失真优化(Rate Distortion Optimization,RDO)思想及其传统解决方法,讨论了编码过程中考虑编码依赖关系的重要性。在将会话视频序列编码依赖性简化为人脸ROI时域依赖性的基础上,提出了一种由人脸ROI的综合优化和非人脸ROI的独立优化相结合的全局RDO框架。该框架能较好适用于常规One-pass编码结构,其中独立优化部分仍遵循传统的RDO优化规则,而综合优化部分则需考虑人脸ROI失真度对未来帧的时域扩散影响,且两部分通过新的拉格朗日系数相关联。为了统计综合优化中人脸ROI所造成的总失真度,本框架提出了一种基于前向运动搜索的人脸ROI时域扩散替代链的构造方法。结合人脸ROI时域扩散链,给出了一种人脸ROI的失真度时域扩散统计模型,其中基于变换残差的拉普拉斯分布特性构造的特征函数通过从运动补偿预测失真估计量化失真,实现了计算复杂度的降低。模拟实验表明,人脸ROI时域扩散替代链构造方法快速、合理,人脸ROI失真度时域扩散统计模型能够较好的估计失真度扩散情况,该框架为会话视频序列人脸ROI的全局RDO提供了一种有效的实施办法。与JM15.1中基于独立假设的RDO方法及相关参考文献中另一种考虑编码依赖性的RDO-Q方法的实验结果对比显示,本框架实现了视频序列整体及人脸ROI在PSNR差值(Bjontegaard1Delta PSNR, BDPSNR)上的同步提高或编码比特率差值(Bjontegaard Delta Bit Rate, BDBR)的下降。最后,论文研究了会话视频序列的差错掩盖方法,提出了一种基于人脸真实感模型辅助的空域差错掩盖策略。该策略主要包含三个方面的内容。第一,基于主动外观模型(Active Appearance Model, AAM)定位算法效率的高低与AAM初始拟合位置(初始中心、放置方位)和拟合实例(形状实例、表观实例)关系的密切性,设计出人脸关键特征粗定位方法以计算平面偏转角及侧深度偏转角,进而得出AAM模型的初始中心、放置方位和形状实例,同时结合纹理的相似特性确定AAM模型的表观实例,最终给出了一种基于AAM人脸关键特征点提取算法的改进策略。第二,利用得到的AAM人脸关键特征点和Candide-3人脸通用线框模型设计相应的人脸模型姿态调整、形状匹配及纹理映射算法,实现了一种快速的人脸真实感建模方法。第三,根据受损帧预掩盖结果和可供利用的人脸真实感模型,确定各受损MB所属类型划分,从而自适应调用各种空域掩盖算法。特别的,对于人脸ROI纹理块,本策略提出了一种从人脸模型平面映射图中搜索最佳替代块的掩盖思想。模拟实验表明,本策略中AAM改进算法的准确性高于原AAM,且人脸模型构建方法方便快捷,真实感强,为从单张二维图像恢复人脸深度信息的病态问题提供了较合理的解决方案。与基于JM17.0的空域双线插值算法和自适应方向插值算法的实验结果对比显示,基于人脸模型辅助的空域掩盖方法无论在交织打包和棋盘打包情况下,均可实现对受损块的较满意掩盖,提高了人脸ROI的主客观质量,一定程度上解决了人脸ROI丢失尤其足部分特征丢失时的恢复问题。
其他文献
2018年1月28日至2月5日,受到冰雪天气的影响,当阳市柑橘类果树遭受了40年来最严重的冻害,主要有橙类、柚类、柑类,受害程度普遍达到(2~3级),局部达到重度,其次为温州蜜橘,大
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
空间谱估计是对空间某一区域内的多个感兴趣信号的方向进行估计的技术,是阵列信号处理最主要的研究方向之一。该技术广泛应用于雷达、声纳、通信、地震勘探、医学成像等多种军
目的探讨阿尔茨海默病(AD,又称为老年性痴呆)伴脑白质疏松症(LA)患者认知功能损害情况。方法收集AD患者51例,与51例无认知功能下降者对照研究,检测受试者血压、血糖、血脂、体重指数
矿产、能源等资源因其稀缺性,必然受到国家意志的高度影响——这在世界各国皆然。在国际化背景下,能源等资源既是一种商品,也是一种国际政治工具。因此,在10月14日在武汉举办
目的调查住院精神分裂症患者药物治疗现状,为临床合理用药提供参考。方法采用自行设计调查表,对患者临床用药情况进行调查。结果单一用药从2005年的43.2%上升到2009年的66.5%。到20
以不同的原料采用溶胶-凝胶法制备了不同粒径的超细SiO2粉末,通过TEM,TG-DTA和IR方法对产物进行了表征。
目的探讨年龄对术后认知功能障碍(POCD)的发生率、发病持续时间及其对简易智力状态检查(MMSE)评分的影响。方法回顾分析4 640例患者中不同年龄段POCD的发生率、发病持续时间及MMS
目的:观察贺氏火针治疗面瘫风寒袭络证的临床疗效。方法:将100例面瘫风寒袭络证患者随机分为治疗组和对照组,各50例,治疗组采用针刺结合火针治疗,对照组用单纯针刺治疗。采用
目的探讨老年直肠癌经腹会阴直肠癌根治术(Miles手术)围手术患者的护理经验。方法对本科2002~2005年96例70岁以上的直肠癌病例进行回顾性分析。结果本组患者均行Miles手术,无围手