论文部分内容阅读
双耳信息编码(BinauralCueCoding,BCC)是近几年兴起的一种多声道音频编解码技术,通过将多声道的音频信号缩混为单声道的和信号,同时提取声道之间与人的空间听觉相关的小数据量的边信息,能实现传输和存储数据量的压缩。BCC可以利用现有的传统的编解码算法实现底层压缩,更进一步的降低数据量。BCC是有损压缩算法,无法实现音质还原的完全透明。对于某些双声道环绕声信号,BCC解码后的音质还存在某些缺陷。
本文以双声道的3D音频信号为例,根据BCC算法的基本流程原理,实现了基于MP3底层编码的BCC算法。在此基础之上,本文通过几个简单的音频信号的编解码效果对比,指出算法中可能存在的一些局限性。对此,本文引入了非均匀离散傅立叶变换(NonuniformDiscreteFourierTransform,NDFT),提出了一种从时域到心理声学频域的变换方法,提高了低频段参数估计的谱线数目,适当降低了高频段参数估计的谱线数目,从而尝试了对BCC算法的改进。
为了评价改进后算法的效果,本文根据ITU的相关标准,设计了相应的主观评价方法,并组织了17个人的测听实验。在5分制的评价结果中,改进的BCC算法的音质评价平均得分为4.43分,声像宽度平均得分为3.99分,比传统算法的4.25分和3.59分都要高。这表明,改进算法较传统算法无论是整体音质还是声像宽度还原都有了一定的改善。另外,结果也表明,基于MP3底层编码的BCC算法较MP3算法具有不少的优越性。
本文最后总结本文的工作,分析了工作中遗留的种种问题,对后续工作提出了展望性的意见。