论文部分内容阅读
听觉感知计算是神经计算科学领域的一个重要研究方向,其任务是以神经生理学的研究成果为基础,模拟人类听觉信息处理的神经模式,从计算的角度研究新的听觉信息处理方法和应用系统。听觉感知计算模型的研究对新型语音处理技术的发展,如听觉功能修复、大规模自动语音识别系统、身份识别、新型人机交互模式等具有重要的理论意义和应用价值。本文从听觉感知计算的角度出发,主要在听觉神经处理机理,特征提取算法及识别系统建立等方面展开研究,侧重解决复杂环境下鲁棒的语音信号特征提取问题。本文的具体工作有以下几个方面:1.提出了一种非负张量主分量分析算法(NTPCA),计算张量结构下不同维度的投影矩阵;结合初始听觉皮层的时频感受野(STRF)模型,引入了时间、频率、尺度和相位的高阶张量结构,把语音信号的时序和频率特性统一到一个皮层表征模型下;通过NTPCA算法进行特征提取,给出了一种新的具有鲁棒性的语音特征Gabor张量倒谱系数(GTCC)。算法的稀疏性约束保留了具有稀疏分布的纯净特征分量,同时抑制了具有稠密分布的噪声分量。计算机仿真实验结果证明了GTCC特征的有效性和鲁棒性,能够提高噪声环境下语音识别系统的性能。2.模拟外围听觉通路的信号处理机制,利用一组耳蜗滤波器组模拟耳蜗中基底膜各个区域的频率选择性,提取耳蜗能量谱特征,利用独立子空间分析(ISA)方法将耳蜗能量谱特征投影到统计独立的线性子空间,提取不同说话人的谐波成分特征,利用极大化不同子空间的独立性,抑制噪声成分的干扰。实验结果表明,该方法提取的鲁棒听觉特征(RAF)特征具有较好的鲁棒性,提高了噪声环境下的说话人识别的性能。3.提出了一种约束的非负张量分解算法(cNTF),通过稀疏控制算子和正交性约束,控制张量基函数和特征系数的稀疏程度,提取张量数据中的局部特征表征,结合皮层表征模型,利用cNTF算法学习到的稀疏张量基函数对语音信号进行投影,得到鲁棒的稀疏Gabor特征用于说话人识别。从实验结果可以看出,皮层张量倒谱系数(CTCC)特征对于加性噪声具有鲁棒性,能够适应不同的噪声环境。4.建立时间×频率×说话人身份的张量模型,利用稀疏非负张量分解算法学习包含可判别信息的张量基函数,以获得投影到张量基上的最优特征系数,最后利用高斯混合模型进行说话人的身份识别。实验结果证明,本文提出的基于听觉的非负张量特征(ANTF)和基于听觉非负张量倒谱系数(ANTCC)特征能够提高说话人识别系统的性能,增强系统的鲁棒性。本文针对噪声环境下语音信号特征提取问题,研究了人的外围听觉通路和听觉皮层的信号处理机制,给出了几种基于听觉感知模型和高阶张量分解的鲁棒特征提取方法,提高了现有的语音识别和说话人识别系统的性能。