论文部分内容阅读
本文主要研究了单通道中的语音水印和语音增强算法。语音水印属于信息隐藏(Information Hiding)的范畴,它在信息安全中扮演着越来越重要的角色,既可以保证信息在传输中的完整性,还可以应用于版权保护、身份认证、数字取证、隐蔽通信、带宽扩展、遗留系统增强等领域。而语音增强属于信息恢复(Information Retrieve)的范畴,增强的类型包括谱增强、信号增强和特征增强等。因为在实际环境中干扰和噪声总是存在的,所以增强信号往往是必须的,以便进一步加工、处理信息。使用语音增强技术的好处很多,例如可以改善有背景噪声时语音通信的听觉体验,提高高噪声背景下语音识别的识别率,帮助听力受损人士进行更好的沟通。因此,对语音水印算法和语音增强算法的深入研究具有重要的学术意义和长远的经济与社会价值。语音水印和语音增强一直都是研究的热点,但是在实际研究中仍有诸多难点。比如,在语音水印的研究中有两个难点。一是鲁棒性,现有的水印算法对抗PSTN网络的信道攻击很困难。二是嵌入容量,现有的水印算法在窄带语音中实现数据的高速率隐藏很困难。再比如,尽管语音增强是语音信号处理中的基本问题,并且已经有多种算法被提出,但是在如何充分利用语音本身的特征、有效去除非平稳噪声、去掉人为噪声等方面依然存在若干研究难点。为了解决上述问题,本文将对语音水印算法和语音增强算法进行了深入研究。本文的主要工作包括两部分。第一部分是研究语音水印算法。首先,针对PSTN信道,基于扩频通信和感知滤波原理,提出了能够对抗带通滤波、重量化、压扩攻击的鲁棒水印算法。其次,利用语音中低频部分能量高、高频部分能量低,以及人耳对高频部分听觉的不敏感性,基于子带语音替换和谱包络约束,设计了具有高嵌入容量的水印算法。第二部分为语音增强算法。首先,基于自回归模型,-推导了模型参数估计的性能下界,并设计了能渐进达到下界的迭代维纳滤波来估计谱包络。其次,结合自回归模型和线谱频率跟踪,利用语音帧间的时间相关性来增强语音。通过使用卡尔曼滤波器改进了谱包络估计,使得语音增强算法可以适应平稳与非平稳噪声环境,并且减少了音乐噪声。最后,基于实谐模型推导了其参数估计的性能下界,并且利用基音估计和梳状滤波,改进了谱估计。本文的具体研究内容和主要贡献如下:1.在分析了 PSTN声带信道攻击的基础上,提出了一种基于扩频和感知滤波的PSTN声带语音水印算法。该算法改进了产生、嵌入与提取水印信号的方法。为了对抗带通滤波攻击,产生水印信号时采用了曼彻斯特非归零码作为扩频码的脉冲波形,嵌入和提取水印时利用子带技术修正了心理声学模型和听觉感知滤波器的设计。为了对抗线路卡攻击,设计了针对带水印信号的预处理算法。本文还推导了该算法的理论嵌入容量。实验结果表明,本文算法对带通滤波、重量化、压扩等攻击具有鲁棒性,并有较高的系统容量和良好的听觉效果。在联合攻击下,当速率为25 bps时,误码率性能小于0.005,听觉感知评价的分数超过了 4。2.利用人耳对高频语音部分的听觉不敏感特性,提出了基于子带替换和谱包络约束的窄带语音水印算法。为了确定子带替换的频率范围,给出了对第三共振峰频率高斯性的评价方法及其概率密度函数的参数估计方法。为了保证水印信号的不可感知性,使用了功率门限法对水印作尺度变换和谱包络约束。为了适应时变信道和减少误比特率,嵌入时在隐藏消息序列中加入了训练序列,提取时引入了均衡。另外,从理论上分析了以嵌入容量和误比特率为指标的水印系统性能。实验结果表明,建议的水印算法容量高于传统算法,达到1.2 kbps,还能够对抗多种攻击,并具有良好的听觉效果。3.提出了以自回归建模为基础的语音谱增强方法,它可以转化为带噪自回归过程的参数估计和最优滤波问题。为了评估参数估计的性能,在频域中推导了渐进克莱姆-劳下界。为了增强谱估计,建议了一个基于最大似然准则的迭代估计算法和一个基于最大后验准则的迭代维纳滤波器。实验结果表明,本文建议的算法精确地估计出了模型参数,收敛速度快且渐进达到了克莱姆-劳下界,适用于低阶和高阶自回归过程的参数谱估计。另外,在输入信噪比为0~5 dB时,增强的信号最多可获得3 dB的增益。4.建议了一种使用线谱频率跟踪、以自回归模型为基础的语音增强方法。通过从带噪语音中估计出的模型参数可以重构纯净语音。具体地,通过跟踪线谱频率的时间轨迹来估计谱包络,改进了对失真短时谱幅度的估计。算法先对带噪语音进行预处理,以便通过线性预测分析更加准确地估计出谱增益。通过卡尔曼滤波跟踪线谱频率轨迹,谱包络的估计也得到了改进。卡尔曼滤波器的参数估计通过码本映射和最大似然估计得到。对该方法的评价包括语谱图、客观评价和主观评价。实验结果显示,与传统算法相比较,本章采用的方法在各种噪声条件下都改善了增强的效果。比如,采用PESQ指标时,该算法获得了 0.3-0.7分的提高。另外,该算法还减少了音乐噪声。5.提出了以实谐多正弦模型为基础的语音谱增强方法,它可以转化为对带噪实谐多正弦模型的参数估计问题。为了评估参数估计的性能,推导了渐进克莱姆-劳下界。为了更精确地估计参数,建议了一个基于周期估计和梳状滤波的预处理算法。实验结果表明,与不使用预处理的参数估计相比,使用预处理的参数估计更加精确,达到了渐进克莱姆-劳下界,可恢复出低阶和高阶实谐多正弦信号,增强的信号至多可获得6 dB的信噪比改善。