论文部分内容阅读
伴随着数字化时代的到来,数字音频编码技术获得了快速的发展,生活水平的提高促使人们渴望享受更优质的音频服务,对多声道音频服务的需求目益增加,立体声和多声道音频编解码技术已成为高品质音频增值业务的重要支撑技术之一。传统的多声道音频编码是对每一声道单独编码,其码率会随声道数成线性增长。空间音频编码技术通过对输入信号下混并提取表征空间信息的参数解决了码率随声道数近似线性增长的缺陷,在较低码率下实现立体声/环绕声效,已成为当前音频技术领域中研究热点之一。但由于空间音频编码理论研究的时间较短,空间音频参数的表示和提取模型尚不完善。现有的空间音频编码技术在利用人耳听觉系统对空间参数的感知方面还停留在原理和理论层次,无法用于实际的空间音频编码,成为影响提高音频信号重建质量的关键要素。面对国内数字音视频产业缺乏核心技术,长期受制于欧美标准高额收费的困境,及用户对高品质多声道音频业务的日益迫切需求,传统多声道音频编码理论越来越难以满足发展的需要。作为多声道音频编码主流的空间音频编码技术,其空间音频参数的表示和提取模型尚不完善,没有考虑人耳对于空间参数的感知特性。本论文的研究方案是基于人类双耳听音的物理现象,依据听觉系统的生理特性,在现有空间听觉理论、临界频带划分思想、Breebaart延时衰减网络以及信道容量和信熵概念等科学成果的基础上,进行研究策略的制定和结构模型的构建,在此基础上通过大量主观听音测试实现实验数据的获取和理论结果的验证。本文以科学理论为前提,以实验分析为依据,理论与实践相结合,层层递进,环环相扣,其具体研究内容如下:(1)建立双耳线索空间感知模型现有的空间音频编码模型只是去除了声道间的客观冗余,没有利用空间参数的感知特性,存在较大的感知冗余。本文依据空间参数的主观听觉特性,建立双耳线索空间感知模型,获取空间参数(即双耳线索ILD、ITD和IC)的绝对掩蔽恰可感知(JND)曲线,在生理感知层面建立双耳线索空间感知的一维、二维模型。(2)建立空间信息度量模型感知熵理论考虑了人类听觉系统对声源时频域信息的感知,未考虑人类双耳听音的空间信息感知。为了克服这一缺陷,本文在双耳线索空间感知模型的基础上,借鉴信道容量公式和熵的概念,结合生理系统有限的分辨率和内在噪音,以恰可感知差异来表征听觉系统的灵敏度,提出空间感知熵概念,建立空间信息度量模型。(3)构建基于空间感知熵的应用框架以感知熵理论为基础的传统应用编码框架,难以去除空间信息冗余,本文利用双耳线索空间感知模型和空间信息度量模型的研究成果,提出基于空间信息度量模型的空间感知熵应用框驾。主要内容包括:提出基于空间参数感知特性的固定模式参数提取策略,设计基于空间感知熵的实时模式参数提取策略,并建立利用以上策略指导空间音频编码的新编码框架。本论文针对空间音频感知信息度量模型关键技术进行研究,基于人耳对空间参数的感知特性,建立双耳线索空间感知模型;提出使用感知熵度量可感知的空间信息量,建立空间信息度量模型;提出基于空间信息度量模型的编码框架,实现高效的空间音频编码。与现有空间音频编码标准的编码质量相比,MOS分提高0.2以上