论文部分内容阅读
同视觉一样,人类的听觉也是三维的。人类不仅能感觉出声音的音调、音强、音色,还能分辨声源方向与距离。这种特性使得听觉具有立体感。三维音频技术可以真实地再现原始声场声音信息,使听者产生“身临其境”的聆听体验。三维音频可通过双耳声学技术来实现,即采用头相关传递函数(Head Related Transfer function,HRTF)对单通道声源信号进行滤波,将得到的具有方向感的声音使用耳机或一对扬声器进行重发。HRTF时域表示称为头相关脉冲响应(Head Related Impul se Responses,HRIR).双耳声学技术已被应用于盲人听觉导航、飞行训练、虚拟现实中。HRTF描述了声音从声源传播到耳内的过程中,人的躯干、头部、耳部等对声音信号的滤波作用。实际中通常采用经过精确实验测量得到的HRTF数据库。这种数据库存储了上千个声源位置的HRTF,且每个HRTF的冲击响应持续时间较长,对应的FIR滤波器阶数很大,并且每个人的HRTF’都不尽相同。因此,要存储多位测量者的HRTF数据,需要消耗巨大的存储空间。当采用嵌入式芯片合成三维虚拟声时,其存储空间通常无法满足存储量要求。此时,若能以难以察觉的听觉定位性能损失为代价,来换取HRTF数据库的非常大的存储空间减少量,那么就可解决HRTF数据库耗费存储量大的问题,减少实际应用中所使用的芯片的功耗与成本。本文对CIPIC的HRTF数据库分别进行非线性降维分析与线性压缩,并将两种方法结合。实验结果显示,在不改变HRTF声学定位性能情况下,压缩率可降低至0.3%,与传统PCA方法相比,可减少95%以上的存储量。本文主要工作如下,(1)采用流形学习方法LLE(Locally Linear Embedding)对HRTF进行非线性降维分析,对原有分析方法进行改进,即采用更优的特征选取与插值算法,根据输入参数变化提取特征方位HRTF分布;并将此特征提取过程扩展到二维,得到规律的二维特征方位HRTF分布。(2)提出并采用CP(canonical polyadic)分解对最小相位HRTF集进行降维。(3)采用2D-CPD(2-dimension Common Factor Decomposition)算法对最小相位HRTF进行降维,对其降维结果进一步采用基于最小二乘(Least Squares)、基于迭代预滤波(Iterative Prefiltering)、基于BMT(Balanced Model Truncation)的共声学极点IIR建模进行压缩,并比较三者降维效果。(4)利用非线性降维中,特征HRTF分布位置的规律性,将非线性降维分析结果与线性降维方法结合,即分别使用CP分解与2D-CPD对非线性降维分析得到的特征HRTF集进行降维,进一步减少存储量。