论文部分内容阅读
语音是人类最方便直接的交流方式,在数字化的时代,如何对语音信号建模以获得更少的采样但又不影响语音的质量,是当前语音信号处理领域中的研究热点。压缩感知(Compressed Sensing,CS)是基于信号在某个域的稀疏性建立的线性、非自适应采样的新理论,表明具有稀疏性的压缩感知能获得更好的压缩性能,信号的稀疏性或可压缩性是实现压缩重构的必要条件之一。由于语音信号具有可压缩性,能够采用低于Nyquist采样的速率无失真地采样信号,基于压缩感知进行低速率无失真地采样给语音信号的采样、存储、传输和处理都带来了很大方便。所以CS理论与语音信号处理领域的结合,意味着对传统的基于奈奎斯特均匀采样定律下的语音分析方法的颠覆。用CS理论中的观测来代替传统的Nyquist采样值,将导致信号特征根本性的变化,进而影响整个语音信号处理各种应用的理论和技术体系。将CS应用于语音信号领域,来探求语音信号处理的各种新方法具有很好的现实意义,而研究语音压缩感知中的各种关键技术是其走向实用的基础。本论文的主要工作和创新如下:(1)根据语音信号在离散余弦(DCT)基下的稀疏性描述了基于正交基的语音压缩感知的框架。基于此框架,对随机观测矩阵进行选择,并采用基追踪(BP)和正交匹配追踪(OMP)算法对已压缩采样的语音信号进行重构,提出一系列结论:CS观测矩阵的维数(其决定了压缩比)、每帧语音信号选取的帧长的大小、分帧时采用的窗函数及帧移,都对重构性能有影响。(2)基于语音信号帧内样值间的相关性和冗余域的稀疏性,采用离散余弦转换矩阵及基追踪方法对压缩感知采样语音进行重构时,针对语音稀疏性不够好导致大压缩下采样后重构效果差的缺点,本文提出采用过完备线性预测字典做转换矩阵,用基追踪重构算法对压缩感知采样语音进行高质量重构。该方法预先由训练语音的预测系数聚类构造过完备字典,不需要测试语音的预测系数;基于过完备线性预测字典重构信号性能良好。对利用基追踪重构的语音进行了主客观评价,得出结论:同样的观测数目下,基于过完备线性预测字典,比基于离散余弦变换矩阵压缩感知采样语音重构信噪比高出3~8dB。(3)针对含白噪语音信号压缩采样后采用基追踪方法重构性能差的问题,在设计更具鲁棒性的重构算法方面提出自适应基追踪去噪方法,该方法根据原含噪信号的信噪比自适应选择重构最佳参数,从而在重构语音的同时提高原信号信噪比。并在此基础上提出自适应基追踪去噪并后置去噪方法。随后又提出前置去噪后基追踪重构方法,针对前置去噪提出了一种基于数据驱动字典和过完备稀疏表示的自适应语音增强方法,含噪语音增强之后再采用基追踪实现含白噪语音的压缩感知。基于这三种方法实现含噪语音信号的压缩感知,并对其性能进行比较。针对观测含有噪声的压缩感知问题,提出采用对观测噪声鲁棒性较好的ABPDN重构算法,当语音观测含有噪声时,采用ABPDN算法重构信号性能优于采用BP算法重构信号性能。(4)针对语音信号在小波域的压缩感知问题,在系数总长度不超过原信号长度的前提下,推导了Sym小波分解合成的矩阵形式,提出了语音信号多尺度压缩感知(MCS)系统框架。论文进一步分析语音信号在小波基下不同级的稀疏性,提出了一种自适应多尺度压缩感知(AMCS)方法,并将这两种方法应用于语音压缩重构中,对重构语音进行了主客观评价和说话人识别验证,得出结论:基于AMCS的压缩重构,比非自适应的MCS重构语音的性能好。