论文部分内容阅读
语音是迄今为止最常用的交流方式。近年,语音通信多与其他多媒体通信方式相结合,例如电视电话会议、微信语音聊天等。随着这些应用的流行,人们不仅对语音信息量的需求在逐渐变大,对语音质量的要求也迈上了新的台阶。传输用传统的采样量化得到的数字语音,会占用较多信道资源,并且在存储时也对存储空间有很高需求。因此,在确保语音通信可靠性的情况下,如何有效地进行语音编码,降低传输语音的比特率、减少信号占用信道资源,是通信过程中的重要问题。语音信号的稀疏表示是语音信号处理中降低数码率并减少占用带宽的有效手段。本文对语音信号的稀疏表示进行了研究。其中重点研究了基于冗余字典的稀疏表示。文章首先对稀疏表示理论进行了详细的总结和归纳,对信号稀疏表示的两个关键技术—稀疏分解算法和稀疏基的构造进行深入分析。1.首先对K-SVD字典训练算法进行研究,并将其与K-Means算法及MOD算法展开对比讨论。K-SVD算法的主要特点是可以为特定的信号训练适应该信号的字典,并能在得到字典的同时得到信号的稀疏表示。K-Means算法是K-SVD算法码本维数为1的特殊情况。与MOD算法对比,K-SVD算法将MOD算法中对矩阵的求逆转化为对误差矩阵kE的rank-1逼近。本文从对比分析这三者的差异角度来阐述K-SVD算法用于字典训练的机理。2.本文基于线性稀疏表示,针对K-SVD字典初始化问题进行了研究。基于传统K-SVD训练字典的方法需要在开始就确定字典的规模,而选择的字典规模不当会造成信号过表示或欠表示,严重影响语音的稀疏质量。针对字典初始规模的选择问题,本文提出了一种基于新型BDS模型的字典初始化方法,该方法根据最佳字典规模与稀疏比的关系为字典规模建立模型,可以自适应的为语音信号选择恰当的初始字典,避免了K-SVD方法依靠经验设置字典规模的缺陷。本文将加入BDS模型的训练字典的方法应用于来自太原理工大学数字音频与视频实验室语音库的语音,进行仿真实验并对实验结果进行了分析。实验结果表明:基于BDS模型的语音信号字典构造方法实现了自适应选择最佳字典规模目的,可在保证重构语音质量的同时,进一步提高字典训练的效率。3.本文针对语音信号的非线性特征,提出一种基于核字典的语音信号稀疏表示方法。本文通过将语音信号投影至高维特征空间,再对特征空间的信号进行线性稀疏表示来得到语音信号的非线性稀疏表示。算法中将核理论引入计算过程,来避免高维空间的海量计算。实验结果表明:在稀疏表示非线性信号时,核字典法明显优于K-SVD算法。而且在构造字典方面,核字典法比核MOD算法性能更优。