虚拟听觉空间实现中的关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:mfklyga
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虚拟听觉空间(VirtualAuditorySpace,简称VAS)可以根据人类心理听觉特征,通过双声道播放系统再现声源的空间信息。与头相关传递函数(HeadRelatedTransferFunctions,简称HRTFs)描述了声波从声源到耳道口的传播特征,反映了外耳、头部和躯干等身体结构对来自不同方位声音信号的滤波效果;与之对应的时域表示称为与头相关脉冲响应(Head-RelatedImpulseResponse,简称HRIR)。因此,HRTF既与声源相对于听者的方向有关,同时也因人体部位形状及大小的不同而存在很大的个体差异。基于HRTF的VAS可以通过信号处理技术,利用HRTF将声音定位在空间的不同方位,只需一对耳机(或者扬声器)就可以实现声音空间信息的重放,设备简单,成本低。VAS已广泛应用于多媒体计算机,医学研究应用,军事战场模拟,残障人员的导航系统,驾驶模拟训练,指挥控制系统以及智能机器人的开发等许多领域。但是现有的VAS实现中还存在很多技术有待改进,比如HRTF数据本身就是决定基于HRTF的VAS合成效果的主要因素之一。目前绝大部分空间听觉系统都是基于通用HRTF实现的。这种方法忽略了HRTF的个体差异,常常会因为听者自身的HRTF与通用HRTF不匹配而产生失真,如较严重的头中效应、前后颠倒以及仰角误判等现象。因此,如何获得因人而异的个人化HRTF是合成理想VAS的前提,也是实现具有较高听觉感知度VAS的关键所在。理论上要得到个人化的HRTF就必须测量每个人所有方向的HRTF,这不仅需要专门的设备和技术,而且测量过程复杂耗时,难以实际应用。因此,如何通过简单的方法获取一套合适的HRTF是目前VAS的一个研究热点,具有很大的研究价值。 本文主要在HRTF的个人化及基于耳机虚拟声系统的外部化两方面展开研究。在该领域已有研究成果的基础上,提出了三种HRTF的个人化方法,并通过联合使用个人化HRTF和环境线索实现了耳机VAS系统的优化,具体包括以下几方面工作: 第1章,介绍了耳朵的结构、听觉感知系统传输特性和空间听觉定位原理,并讨论了基于HRTF的耳机重放VAS合成的原理、应用和实现中存在的问题及其可能的解决方案。 第2章,回顾了近30年中,在一些国际期刊和会议上发表的关于HRTF及其个人化方面的文章,在此基础上讨论了HRTF个人化研究的必要性以及目前已有的一些个人化方法。 第3章,介绍了HRTF数据库,并分析了该数据库中HRTF数据的结构特征,进一步验证了VAS中使用个人化HRTF的必要性;然后对该数据包提供的HRTF数据和相应人体参数进行了统计分析,选出了几个与HRTF主要特征相关较大,且对正确感知影响较显著的人体参数,为后面通过人体参数进行HRTF个人化奠定了基础。 第4章,在早期个人化研究和论文前面章节分析的基础上,提出了基于最小二乘多元线性回归的HRTF个人化方法。由该方法估计的个人化HRTF的主客观分析结果都优于非个人化HRTF。 第5章,对多元线性回归的个人化方法进行了改进,提出了基于偏最小二乘回归的HRTF个人化方法。客观误差分析和主观声音定位测试结果表明:估计的HRTF与实际测量的HRTF之间不仅均方误差较小,而且感知区别不大;同时由偏最小二乘回归估计的个人化HRTF在水平面上的主观测听定位准确率明显优于非个人化HRTF,也优于由最小二乘回归估计的个人化HRTF。 第6章,考虑到身体结构对声音复杂的散射作用,采用了基于神经网络的非线性回归模型来描述HRTF和人体参数之间的非线性关系,得到了比最小二乘和偏最小二乘多元回归更精确的个人化HRTF模型。 第7章,讨论了若干和耳机重发空间声音有关的问题,比如头中效应现象和声像定位不精确等问题。在回顾了关于头中效应产生原因及其解决方案等方面的文献后,结合已有混响算法和第6章提出的个人化HRTF方法,提出了一种声像外部化方法,从而使得产生的虚拟声不仅有较精确的感知定位性能,而且有较明显的外部感。
其他文献
随着Internet的快速发展,主干传输网络的容量和传输速率不断提高。同时,以太网技术的飞跃发展,使用户网络如局域网(LAN)和家庭驻地网的带宽迅速增加。然而介于用户侧和骨干网之
为了对慕尼黑工业大学集成系统教席所开发的网络处理器原型平台进行测试,需要采用一个以太网数据包发生器来产生测试激励。由于现有的软件发生器只能提供大约10Mbps-100Mbps的
作为在信号与信息处理领域中一个非常活跃的研究方向,盲信号分离在图像处理,通信,电子对抗等领域得到了广泛的研究和应用,并取得了大量的成果。在早期盲分离问题的研究中,一般要做
中医学以整体观和平衡观为指导,已成为现代医学的重要组成部分和人类医学的宝贵财富。舌诊是中医四诊的重要内容,是辩证论治的主要依据。它通过观察舌象的变化,了解机体生理
合成孔径雷达(Synthetic Aperture Radar,SAR)图像已广泛地应用于国民经济和国防科技等领域,相干斑抑制是SAR图像处理中一个非常重要的预处理部分;为了得到便于解译的SAR图像
近年来,运动视频分析已成为计算机视觉领域里的一个研究热点和难点。本文作者在充分了解相关研究工作的基础上,针对跳水运动视频的特点,研究了存在全局运动的视频运动目标分
无线射频识别(RadioFrequencyIdentification,RFID)技术,是一种利用射频通信实现的非接触式自动识别技术。RFID标签具有体积小、容量大、寿命长、可重复使用等特点,可支持快速读
伴随着Internet的高速发展及各种数字化设备的普及,现代社会中多媒体信息的数量迅猛增长,使得人们越来越多的接触到大量具有丰富内涵的多媒体信息。为了方便地从海量的信息集
生物医学图像的研究方兴未艾,并且随着各种成像技术的不断地发展,为生物医学成像提供了很多新的方法。其中,图像融合方法能为整合多模态和运用新模态图像信息提供帮助,其在基
目前无线频谱资源采用固定分配方式,导致在某些频段利用率低,频谱呈现稀疏状态。然而,授权用户和认知用户对频谱资源共享可以提高频谱使用效率。频谱共享首要任务是对空闲频