人耳声源定位与编码技术研究

被引量 : 3次 | 上传用户:hebe2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前随着3D电影与3D电视的蓬勃发展,以3D音视频为代表的新型多媒体娱乐视听技术得到国家战略支持,3D音视频技术迎来了前所未有的发展机遇,特别是对于3D音频技术,其发展与3D视频技术是不对等的。在传统的多媒体技术领域,我们的起步和发展都落后于西方发达国家,多年来处于“跟随”的状态。但是,在刚刚兴起的3D音频技术领域,我们则有机会与世界上各发达国家在同一起跑线上参与竞争,从而实现从“跟随”到“主导”的跨越式发展。虽然应用需求和产业的发展为3D音频技术的发展提供了难得的机遇,但3D音频技术研究尚处于初级阶段,还面临着许多问题和挑战:1)目前最新3D音频技术从平面声场中提取诸如风雨声的特殊空间声效以产生虚拟三维空间音效,由于未真正提取声源三维空间信息,无法真实重现三维空间声场;2)目前3D音频幅度矢量合成技术通过控制声源对象到不同扬声器的幅度衰减和时间延迟来制造空间位置感,由于不符合人耳对声源的垂直方位感知机理因而效果欠佳;3)3D音频将声场从平面扩展到三维空间,表征声源空间信息数据量急剧增加,庞大的3D音频空间信息数据量对数据压缩提出了严峻的挑战。本论文在国家科技重大专项课题“新型移动多媒体音视频编解码关键技术研发”(No.2010ZX03004-003)、国家自然科学基金重点项目“移动音频编解码基础理论与关键技术”(No.60832002)与武汉大学自主科研项目“基于空间音频线索的安防监控音源定位和分离技术研究”(No.20102110101000099)等多项纵向课题的资助下,研究3D音频中的声源空间信息获取与海量空间信息数据压缩问题。本论文研究基于空间线索的声源水平定位技术、基于频谱线索的声源垂直定位技术和基于空间线索帧间分布特性的空间音频预测编码技术。其中基于空间线索的声源水平定位技术和基于频谱线索的声源垂直定位技术为声源空间信息获取提供理论支撑;基于频谱线索的声源垂直定位技术为3D声场合成提供理论支撑;基于空间线索帧间分布特性的空间音频预测编码技术为海量空间信息数据压缩提供理论支撑,具有较为重要的理论意义与应用价值。本论文在理论模型方法以及应用实践方面具有如下贡献和创新:(1)基于多普勒效应自适应修正的移动声源水平定位模型基于空间线索ITD和ILD的声源水平定位方法是在获取静止场景声源ITD、ILD、频率和水平方位角统计分布的基础上来实现声源水平定位,而在移动声源场景下由于多普勒效应的存在使声源的接受频率发生了变化从而使得对声源水平方位的估计出现偏差。针对此问题本论文提出一种基于多普勒效应自适应修正的移动声源水平定位模型,在获取ITD、ILD和水平方位角统计分布后,通过分析多普勒效应导致的频率变化对基于ITD和ILD联合估计的声源定位模型中的联合概率密度计算方法进行修正以去除多普勒效应带来的影响,使之适用于移动场景下的声源定位。声学实验表明:本论文提出的移动声源定位改进方法与国际前沿研究方法相比在静音条件下声源分别以1米/秒、5米/秒和10米/秒移动时声源水平定位平均准确率分别提升了0.3%、5.7%和10.5%。(2)适用于不同声源的频谱线索垂直定位模型基于频谱线索的声源垂直定位方法通过建立频谱线索-仰角映射统计的方法来实现声源垂直方位估计,由于频响中哪些波峰和波谷可准确表征声源的垂直方位与声源类型相关,一旦声源类型发生变化,原有的频谱线索-仰角映射统计便不再适用,因而无法适用于各种不同的声源。针对此问题本论文提出一种适用于不同声源的频谱线索垂直定位模型。分别针对噪声、语音和音乐信号确定其频响信号中哪些波峰和波谷可作为表征声源垂直方位的关键特征,并获取此关键特征与声源高度角间的统计分布,定位时首先通过声音分类器确定声源类型,然后选取其对应的频谱线索关键特征及相关频谱线索统计分布进行声源垂直方位估计。声学实验表明:本论文提出的频谱线索垂直定位改进方法与国际前沿研究方法相比在静音条件对噪声、语音和音乐的声源垂直定位平均准确率分别提升了2.3%、6.6%和16.4%。(3)基于空间线索帧间分布特性的空间音频高阶预测模型针对目前国际空间音频编码技术中普遍采用的帧内差分预测和帧间差分预测编码方法,只是将空间线索上一子带作为本子带的预测值,或者将空间线索上一帧作为本帧的预测值,未充分利用声源空间线索帧间分布特性来设计预测算法从而使得预测效果欠佳的问题,本论文在对空间线索帧间差值统计分布进行分析后提出了一种基于空间线索帧间分布特性的贝叶斯高阶预测模型,并于MPEG Surround空间音频编码器上进行了实现,与帧内差分和帧间差分预测方法相比更大程度地去除了空间线索帧间相关性冗余。实验表明:本论文提出的基于空间线索帧间分布特性的空间音频高阶预测方法与MPEG Surround预测编码方法相比码率降低约20%。综上所述,本论文研究成果包括基于多普勒效应自适应修正的移动声源水平定位方法、适用于不同声源的频谱线索垂直定位方法和基于空间线索帧间分布特性的空间音频预测编码方法,对于3D音频中的声源空间信息获取与海量空间信息数据压缩应用具有重要的理论意义与应用价值。最后本论文总结了全文的研究成果,并对未来的研究工作予以展望。
其他文献
市民农园是城市居民短期租赁城郊小块农地,参与农事劳作,享受劳动乐趣,并且收获、拥有农产品的一种都市农业生产经营形式.借鉴德国、日本等国家和我国台湾地区的经验,结合北
<正>一、用户造就的TV2.0互联网自诞生以来,发展迅猛,人们常以Web1.0和Web2.0来区分互联网的发展阶段。Web1.0是互联网的初期,在技术上采用html做的静态网页,主要特点在于用
流星余迹通信是一种突发通信方式。其信道具有很强的突发性和较大的时变性。而传输帧长对流星余迹通信的实时性和有效性有很大影响,因此人们对传输帧长的选取进行了很多研究
<正> 第一章总则第一条为鼓励企业事业单位、社会团体、其他组织和公民从事技术贸易,繁荣技术市场,促进科学技术成果转化为生产力,保障技术贸易当事人的合法权益,根据有关法
随着第二代在线故障诊断(OBD II)标准在不同品牌汽车上的强制应用,针对普通用户如何很好地了解汽车运行状态和故障诊断的需求,系统开发采用ELM327芯片通过OBDⅡ读取汽车ECU的数
【目的】磷是限制黄土高原地区农业生产的重要元素,研究黄土高原已治理小流域耕地土壤磷素含量的时空变化对该区耕地的评价与管理有着重要的指导意义。【方法】在实地调查研
自2005年起,国家启动了权力支配型的司法鉴定制度改革。然而未曾料想,当事人不满鉴定意见而到鉴定机构闹事的风气异军突起、且愈演愈烈。当事人闹鉴淋漓尽致地反映了当前转型
于会泳(1920-1977),山东人。1946年参加中国人民解放军,后加入中国共产党。由于参与创作现代京剧《智取威虎山》等,被江青赏识。1975年任文化部部长。在任文化部长期间,充当
纳米材料由于其独特的结构及形貌,衍生出各种特有的性质,在许多领域都有广泛的应用。利用纳米材料良好的吸附性和催化性,将其应用于电化学传感器的构建,能极大的促进电化学传感器
对外汉语教学中,“了”(包括“了1”和“了2”)是教学的重点和难点。《高等学校外国留学生汉语言专业教学大纲》中要求留学生在一年级就学习并掌握“了”的用法。然而留学生在习