论文部分内容阅读
在近几十年来,使用电脑和笔记本电脑在不同的通信场景中录制音频已经有了显著增加,如讲座、会议、视频会议和互联网协议语音通信。一些人使用电脑和笔记本采集讲座音频用于存档,另一些人使用录音机来存档。由于键盘靠近麦克风,导致录制的语音被加性键盘敲击声严重破坏,这些噪声主要来自于机器键盘的打字声。由于敲击声的不平稳性和陡峭性,因此这是一个在单通道语音增强领域具有挑战性的问题。本文主要是抑制语音信号中的键盘敲击声。提出了两种新颖的用于检测和抑制冲击性键盘敲击声的两步算法,即基于相关技术的稀疏非负矩阵分解(SNMF-CR)和基于阈值技术的稀疏非负矩阵分解(SNMF-TT)。在这两种方法中,第一步都是用稀疏非负矩阵分解完成的。在第二步中提出了两种新的算法。在SNMF-CR中,从第一步中(SNMF阶段)估计得到的干净语音与原始带噪语音之间做相关。根据原始带噪语音中的噪声损坏段与估计干净语音中的噪声抑制段之间的低相关系数,原始带噪语音中的噪声段被来自第一步估计的干净语音中的相应噪声抑制段替换。在基于阈值的技术中,根据敲击声的能量比普通语音的频率轴分布更广泛的特点,将整个频谱图水平分为上下两部分。将高频能量的范数除以低频能量的范数,得到的比率跟门限比较从而用于检测键盘敲击声。在原始带噪语音中检测到的键盘敲击声片段被相应的由第一步估计的干净语音片段替代。因此,这两种方法中,没有被键盘敲击声破坏的语音段都被保留不变。在带噪的语音段,键盘噪声被抑制了但是语音质量并未下降。因此抑制敲击声后没有带来严重的语音失真,这是本论文的创新点。提出的算法主要和谱减法、增强的OM-LSA算法对比,所提出的算法具有更好的性能。