论文部分内容阅读
语音是人类进行信息交流最直接有效的方式,在当前移动互联网以及硬件智能化快速发展的大背景下,语音识别技术正逐渐受到大家的重视。目前语音识别已经成为人机交互领域的重要接口之一,但与此同时,语音识别还存在不少问题,比如语音特征对于语义信息的不变性问题,语音中混杂着语义信息和说话人的个性信息,而对于语音识别而言,人的个性化信息会模糊掉特征之间的边界,因此为了增强语音特征对于语义信息的不变性表达,本文做了以下三个方面的工作:1、提出一种将声门共鸣频率因子和共振峰频率因子进行加权融合的频谱规整算法以往频谱规整算法在解决非特定人发音生理上的多种差异时往往只是考虑了其中某个单一差异,比如说声道、声门。但实际上人的发音是一个复杂多变的过程,不同的发音差异并不是互相独立的,因此只考虑某一个方面的差异并不能够很好地解决不同人对于语音特征不变性的影响,因此本文提出一种将声门共鸣频率因子和共振峰频率因子进行线性加权和非线性加权的频谱规整算法,该算法在频谱规整的过程中都综合考虑了声门和声道的差异同时频谱对齐的方式更加平滑确保在频谱规整的过程中能够最大程度地保留语义信息,实验结果验证了算法的有效性。2、提出一种结合VTLN和频谱倾斜补偿的特征提取算法人发音时是通过改变声道的形状来改变发音内容,因此不同人声道的差异必然会在语音中引入人的个性化信息。声道主要影响的是共振峰的位置,同时共振峰的幅度也有所不同。共振峰是表征语音音色的重要指标,以往语音识别中更多的是解决共振峰在位置上的差异而忽略了幅度上的差异,实际上幅度的不同也会影响到语音特征,因此本文提出将声道长度归一化VTLN和频谱倾斜补偿相结合的特征提取算法,该算法能够同时解决不同人发音差异造成的共振峰在位置和幅度上的差异问题,实验结果验证了算法的有效性。3、研究用有监督NPE(近邻保持嵌入)算法对语音特征进行降维变换处理语音特征中的冗余信息导致特征分布出现了类间重叠以及类内发散的问题,因此本文研究从降维的角度出发消除语音特征的冗余信息,在无监督近邻保持嵌入算法的基础上引入语音的分布信息同时增加类间约束,但是实验结果并不理想。