论文部分内容阅读
目前随着3D电影与3D电视的蓬勃发展,以3D音视频为代表的新型多媒体娱乐视听技术得到国家战略支持,3D音视频技术迎来了前所未有的发展机遇,特别是对于3D音频技术,其发展与3D视频技术是不对等的。在传统的多媒体技术领域,我们的起步和发展都落后于西方发达国家,多年来处于“跟随”的状态。但是,在刚刚兴起的3D音频技术领域,我们则有机会与世界上各发达国家在同一起跑线上参与竞争,从而实现从“跟随”到“主导”的跨越式发展。虽然应用需求和产业的发展为3D音频技术的发展提供了难得的机遇,但3D音频技术研究尚处于初级阶段,还面临着许多问题和挑战:1)目前最新3D音频技术从平面声场中提取诸如风雨声的特殊空间声效以产生虚拟三维空间音效,由于未真正提取声源三维空间信息,无法真实重现三维空间声场;2)目前3D音频幅度矢量合成技术通过控制声源对象到不同扬声器的幅度衰减和时间延迟来制造空间位置感,由于不符合人耳对声源的垂直方位感知机理因而效果欠佳;3)3D音频将声场从平面扩展到三维空间,表征声源空间信息数据量急剧增加,庞大的3D音频空间信息数据量对数据压缩提出了严峻的挑战。本论文在国家科技重大专项课题“新型移动多媒体音视频编解码关键技术研发”(No.2010ZX03004-003)、国家自然科学基金重点项目“移动音频编解码基础理论与关键技术”(No.60832002)与武汉大学自主科研项目“基于空间音频线索的安防监控音源定位和分离技术研究”(No.20102110101000099)等多项纵向课题的资助下,研究3D音频中的声源空间信息获取与海量空间信息数据压缩问题。本论文研究基于空间线索的声源水平定位技术、基于频谱线索的声源垂直定位技术和基于空间线索帧间分布特性的空间音频预测编码技术。其中基于空间线索的声源水平定位技术和基于频谱线索的声源垂直定位技术为声源空间信息获取提供理论支撑;基于频谱线索的声源垂直定位技术为3D声场合成提供理论支撑;基于空间线索帧间分布特性的空间音频预测编码技术为海量空间信息数据压缩提供理论支撑,具有较为重要的理论意义与应用价值。本论文在理论模型方法以及应用实践方面具有如下贡献和创新:(1)基于多普勒效应自适应修正的移动声源水平定位模型基于空间线索ITD和ILD的声源水平定位方法是在获取静止场景声源ITD、ILD、频率和水平方位角统计分布的基础上来实现声源水平定位,而在移动声源场景下由于多普勒效应的存在使声源的接受频率发生了变化从而使得对声源水平方位的估计出现偏差。针对此问题本论文提出一种基于多普勒效应自适应修正的移动声源水平定位模型,在获取ITD、ILD和水平方位角统计分布后,通过分析多普勒效应导致的频率变化对基于ITD和ILD联合估计的声源定位模型中的联合概率密度计算方法进行修正以去除多普勒效应带来的影响,使之适用于移动场景下的声源定位。声学实验表明:本论文提出的移动声源定位改进方法与国际前沿研究方法相比在静音条件下声源分别以1米/秒、5米/秒和10米/秒移动时声源水平定位平均准确率分别提升了0.3%、5.7%和10.5%。(2)适用于不同声源的频谱线索垂直定位模型基于频谱线索的声源垂直定位方法通过建立频谱线索-仰角映射统计的方法来实现声源垂直方位估计,由于频响中哪些波峰和波谷可准确表征声源的垂直方位与声源类型相关,一旦声源类型发生变化,原有的频谱线索-仰角映射统计便不再适用,因而无法适用于各种不同的声源。针对此问题本论文提出一种适用于不同声源的频谱线索垂直定位模型。分别针对噪声、语音和音乐信号确定其频响信号中哪些波峰和波谷可作为表征声源垂直方位的关键特征,并获取此关键特征与声源高度角间的统计分布,定位时首先通过声音分类器确定声源类型,然后选取其对应的频谱线索关键特征及相关频谱线索统计分布进行声源垂直方位估计。声学实验表明:本论文提出的频谱线索垂直定位改进方法与国际前沿研究方法相比在静音条件对噪声、语音和音乐的声源垂直定位平均准确率分别提升了2.3%、6.6%和16.4%。(3)基于空间线索帧间分布特性的空间音频高阶预测模型针对目前国际空间音频编码技术中普遍采用的帧内差分预测和帧间差分预测编码方法,只是将空间线索上一子带作为本子带的预测值,或者将空间线索上一帧作为本帧的预测值,未充分利用声源空间线索帧间分布特性来设计预测算法从而使得预测效果欠佳的问题,本论文在对空间线索帧间差值统计分布进行分析后提出了一种基于空间线索帧间分布特性的贝叶斯高阶预测模型,并于MPEG Surround空间音频编码器上进行了实现,与帧内差分和帧间差分预测方法相比更大程度地去除了空间线索帧间相关性冗余。实验表明:本论文提出的基于空间线索帧间分布特性的空间音频高阶预测方法与MPEG Surround预测编码方法相比码率降低约20%。综上所述,本论文研究成果包括基于多普勒效应自适应修正的移动声源水平定位方法、适用于不同声源的频谱线索垂直定位方法和基于空间线索帧间分布特性的空间音频预测编码方法,对于3D音频中的声源空间信息获取与海量空间信息数据压缩应用具有重要的理论意义与应用价值。最后本论文总结了全文的研究成果,并对未来的研究工作予以展望。