论文部分内容阅读
随着三维影视的快速发展,三维音视频技术己引起学术界的广泛关注。三维影视正逐步从大屏幕向家庭影院和移动终端发展,面向家庭的三维音视频技术和面向移动终端的三维音视频技术已成为研究热点。三维音频作为三维音视频技术的重要组成部分,能有效提升三维影视的三维空间临场感和沉浸感。与传统音频相比,三维音频的音源对象数和音源在三维空间的定位精度都在大幅度提升,导致高品质三维音频码率大幅度上升,而传统音频编码技术无法高效压缩三维音频信号及三维音频空间参数,导致现有移动网络带宽难以承载高品质的三维音频码流,制约了三维音频技术的应用和发展。针对三维音频编码技术面临的挑战,本文通过测量和分析人耳在全空间的距离感知灵敏度,并结合已有水平角和高度角的感知灵敏度数据,建立三维空间听觉感知灵敏度模型,并用于指导三维音频的感知无失真编码和感知聚类编码,从而取得了一定的研究成果。本文主要研究工作及创新点如下:(1)三维声场距离感知机理研究目前对空间方位感知特性的研究主要是在水平角、高度角上开展,距离感知敏感特性的研究局限在有限的方位上,还没有对整个三维空间的距离感知灵敏度进行分析建模,因此无法探究整个三维声场的感知机理,不足以指导三维音频的采集、编码与重建。针对这一问题,本文在水平角和高度角的感知灵敏度的基础上,通过对整个三维空间的距离感知分辨率的获取与分析,建立三维空间距离感知敏感度模型,并结合已有水平角和高度角的感知灵敏度数据,建立三维空间听觉感知敏感度模型,为基于感知的三维音频采集、编码与重建的研究提供了理论支撑。具体研究内容包括:设计三维空间距离主观感知听音实验,研究人耳三维空间距离感知敏感特性,建立三维空间距离感知灵敏度表示模型,建立三维空间听觉感知敏感度模型。(2)三维音频基于距离感知的感知无失真编码针对传统三维音频编码方法主要考虑了声源水平角和高度角的编码压缩,还未考虑声源距离信息的提取和压缩,在码率受到无线传输信道带宽和存储介质容量限制的情况下,会造成三维音频声像距离感失真和量化资源浪费的问题。本文基于三维空间听觉感知敏感度模型,提出度量空间参数感知无失真编码所需信息量的计算方法,揭示三维音频空间参数的感知压缩极限,设计了基于听觉感知敏感度模型的空间参数码本,为三维音频空间参数的感知无失真压缩提供了理论指导。具体研究内容包括:研究度量空间参数感知无失真编码所需信息量的计算方法,设计基于听觉感知敏感度模型的空间参数码本,研究三维音频空间参数的感知无失真编码方法。(3)三维音频的感知聚类压缩编码针对现有三维音频空间参数的压缩主要考虑了帧间信息冗余,并采用帧间差分编码去除了帧间信息冗余,但空间参数的帧内信息冗余仍缺乏考虑,而现有三维音频随着空间量化精度的提高,声道数或音源对象数的增加,空间参数的码率激增,使得现有移动网络带宽已无法承载,现有空间参数的帧间差分编码压缩已不能满足需求。本文依据空间参数帧内的空间相关性,提出三维音频空间参数感知聚类压缩编码方法,揭示三维音频帧内空间参数的压缩极限,为三维音频的帧内压缩提供了理论指导。具体研究内容包括:三维音频空间参数的采集,空间参数感知聚类,空间参数的量化和编码。