论文部分内容阅读
随着信息技术的快速发展,多媒体逐渐成为人们表达和沟通的一种重要媒介,而多媒体信息也呈爆炸性增长。在此背景下,相关的多媒体处理技术也成为了研究热点。多媒体信息的最终接收者通常是人,因此研究并利用人的感知特性能够有效地提升相关的多媒体处理技术。本文通过研究人类的感知特性,重点探讨了若干与多媒体体验质量相关的技术,尤其是多媒体体验质量评价。人类感知多媒体信息是一个自底向上不断对底层感知信号进行加工,从而提取更加高层的语义信息的过程,而整个信息感知过程也通常被概念化为几个层级化的阶段:底层、中层及高层感知。底层感知主要从输入的感知信号中获取基础特征,例如亮度、颜色和方向;中层感知主要通过分析和整合基础特征得到更高级的中层特征,例如图像结构和轮廓;高层感知主要通过进一步分析中层特征得到内容和语义信息,例如物体和场景。本文深入探索多媒体信息的底层、中层及高层感知过程,利用人类在各个阶段的感知特性构建多媒体体验质量评价模型,从而为提供更好的体验质量提供帮助。本文的研究内容主要包括以下三个方面:首先,人类在底层感知过程中利用注意力机制有选择性地筛选出关键信息来进行更高级的处理。本文对底层感知过程中的这种注意力进行建模,并利用视觉注意来辅助视觉质量评价。具体地,本文引入了更多的影响视觉注意的因素,完善了现有的视觉注意模型,并利用视觉注意给重要性不同的内容赋予不同权重来辅助视觉质量评价。传统视觉注意模型通常充分利用亮度,颜色和方向等视觉特征来检测与周围环境显著不同的区域。这些模型在能被这些视觉特征很好地表征的场景中表现良好,但是在某些其它场景中效率不高,因此有必要纳入一些其它影响视觉注意的因素来完善现有视觉注意模型。音频信息普遍被当前的视觉注意建模研究忽略,然而音频信息对视觉注意会产生一定的影响,因此本文尝试同时利用视听觉信息来对视觉注意进行建模,并提出了一种视听注意模型。通过视听相关分析,本文定位出运动并发出声音的物体作为听觉注意力图,然后再将听觉注意力图与传统视觉注意力图进一步融合得到最终的视听注意力图。人脸信息是另一种对视觉注意有显著影响的因素。尽管有一些视觉注意模型纳入了人脸检测,但是它们考虑人脸信息的方式并不全面,因此本文对人脸上的视觉注意分布进行了系统性的分析,并提出了针对人脸图像的视觉注意模型。基于人脸检测及特征点定位,本文提取了一系列人脸特征,并将这些人脸特征与传统显著图结合得到预测的人脸视觉注意力图。相关的眼动实验结果表明传统视觉注意模型在纳入以上因素之后得到了显著提升。视觉注意机制作为视觉感知的一种底层机理,能够辅助更加高层的视觉信号处理,包括视觉质量评价。因此本文还借鉴了视觉注意机制,在质量评价的过程中给显著区域赋予更高的权重,而给非显著区域赋予更低的权重来辅助视觉质量评价。其次,人类在中层感知过程中的基础特征整合会受到质量退化的影响。本文利用中层感知过程中的这种失真感知特性构建体验质量评价模型。具体地,本文引入最大失真图像的概念,搭建了基于最大失真图像的盲质量评价框架,并提出了一系列基于该框架的针对特定失真的和通用的盲图像质量评价算法。传统质量评价算法一般都遵循一个通用框架,即通过衡量目标图像与高质量图像的偏差来评价图像质量。受此框架的启发,本文引入了最大失真图像的概念。与高质量的参考图像不同,最大失真图像由失真图像生成,并且它描述了目标图像在遭受较严重的失真时的状态。本文将最大失真图像作为描述最差图像质量的基准点,并通过衡量失真图像与最大失真图像的偏差来估计图像质量。利用上述的质量评价框架,本文提出了基于最大失真图像的块效应,锐度和噪度估计算法,然后再利用一个先失真识别后质量回归的两步框架将这些针对特定失真的质量评价算法融合成一个通用的基于最大失真图像的盲质量评价算法。本文进一步对以上算法进行改进,通过往失真图像增加多种类型及程度的失真来引入多级失真强化图像,然后再比较失真图像和多级失真强化图像之间的相似性。与某一级失真强化图像越相似表示目标图像的质量越接近该图像,而融合失真图像和多级失真强化图像之间的一系列相似性分数即得到基于多级失真强化图像的盲质量评价算法。主流图像质量评价数据库上的实验结果验证了本文提出的算法的有效性。此外,本文提出的算法比主流无参考算法更加稳定,因为本文通过比较图像来估计图像质量,而图像内容的影响在这样的对比过程中得到显著降低。最后,人类在高层感知过程中得到内容及语义信息,而感知质量则严重依赖于高层内容及语义信息。本文利用高层感知过程的这种内容感知特性来拓展多媒体体验质量评价的适用范围。具体地,本文研究跨内容来源的视觉质量评价,并提出了跨内容来源的图像质量评价算法。随着远程终端,云计算,游戏直播等应用的快速发展,视觉通信系统中的内容来源得到了极大的扩展。与从现实世界场景拍摄得到的自然场景图像不同,计算机图形图像和屏幕内容图像大部分都是利用计算机人为生成的,而且它们具有许多与自然场景图像明显不同的特性。因此,很有必要研究图像质量评价在各种内容来源上的适用性,扩展现有的图像质量评价算法的内容来源适用范围。一方面,本文开展了跨内容来源的主观图像质量评价研究,并提出了一个适用于自然场景,计算机图形及屏幕内容图像的统一的内容来源自适应的盲图像质量评价算法。基于本文提出的一种新颖的受感知启发的内容来源自适应多尺度加权策略,该算法能够根据图像内容特性自适应地提取并融合多个尺度上的角点和边缘特征,从而能更好地模拟人眼在观看不同的内容时的感知特性。另一方面,本文通过分析视觉注意与质量评价之间的关系,提出了一个跨内容来源的基于显著性的半参考图像质量评价算法。该算法受两点启发,一是质量退化会造成图像底层特征的变化,从而会影响显著性检测,二是显著性检测实际上也是一种数据降维操作。所以本文通过衡量两幅图像的显著图的差异来评价图像质量,而该显著图由占用数据量极小的一种二值图像描述子来描述。在本文构建的及现有的质量评价数据库上的实验结果验证了本文提出的算法的有效性。与传统算法相比,本文提出的算法对于内容及内容来源变化展现了更强的健壮性。