论文部分内容阅读
为缓解爆炸式增长的语音数据在带宽资源极少的情况下给应用带来巨大的传输和存储压力,本文结合信号稀疏性、稀疏表示和增量学习理论,对语音数据的频谱模值包络的稀疏性进行了研究分析,以保障在传输和存储中将语音信号数据进行有效编码压缩和高质量地解码还原。主要思路为利用语音频谱模值包络存在稀疏性的特点,结合稀疏字典学习基础理论,构建适合于模值包络的稀疏表示模型,再利用增量学习方法,提出基于增量式学习的字典构造方法,对流式语音频谱包络进行增量压缩。研究内容包括:1)使用稀疏字典学习模型,结合增量学习,提出字典学习构造方法,应对流式增量语音频谱包络:包括建立一个完整的模值包络字典,通过字典稀疏表示,使用字典中极少量的基向量线性组合,表示原始模值包络,并通过存储字典基向量的标号和其对应的系数来替代存储原始模值包络,实现语音信号的稀疏表示和压缩存储;2)字典学习和稀疏表示的方法的优化策略分析:包括通过对希尔伯特变换理论的研究和学习,提出利用希尔伯特变换性质的优化策略。通过对加入字典的基向量进行希尔伯特变换,将变换后的基向量用于稀疏表示过程中,增加了字典基向量的多样性,仅在计算机内存中保留每个基向量的希尔伯特变换结果,而仅将其系数存储于压缩文件。由此建立了仅额外占用了少部分压缩存储空间,但可提升字典表达能力,减少字典容量大小并加快压缩效率的优化策略。通过利用网络公开语音数据集PTDB-TUG,本文对所提出的方法与传统ODL算法进行了实验对比。实验结果表明:本文方法在压缩比和还原质量、SSNR三方面均优于ODL算法;优化策略也确实达到了提高字典表达能力,减少字典容量,加快压缩效率的目的。相关方法具有更强的灵活性,能够应对增量式流式语音频谱包络,实现使用极少数基向量拟合一个向量,对具体应用提供了多样性选择和指导意义。