基于子带能量线性映射的噪声中端点检测算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:snesw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究噪声环境下的语音端点检测问题。在低信噪比下 ,虽然噪声和语音的频谱分布不同 ,但是传统语音检测算法使用的时域能量没有描述能量在各频域子带的分布 ,对于语音和噪声没有很好的区分性。以前提出的基于时间 -频率的能量参数利用频域的限带能量加上时域能量来进行噪声中的语音检测。但是它们选择频带的依据是语音信号的高能量子带 ,而没有考虑噪声的子带能量分布。该文提出的语音检测方法同时考虑语音和噪声的频域能量分布 ,采用线性映射的方法将 Mel滤波器组的子带能量特征空间映射到噪声和语音最有区分性的一维子空间 ,得到新的特征参数 EL MBE进行语音检测。实验结果表明 ,在噪声环境下基于线性映射的能量参数比时域能量 ,基于时间 -频率的能量有更好语音检测性能。 Study of voice endpoint detection in noisy environments. At low signal-to-noise ratio (SNR), although the spectral distribution of noise and speech is different, the time-domain energy used by traditional speech detection algorithms does not describe the distribution of energy in each frequency sub-band and does not distinguish between speech and noise well. The previously proposed time-frequency based energy parameters make use of the band-limited energy in the frequency domain plus time-domain energy for speech detection in noise. However, their choice of frequency band is based on the high-energy sub-band of the speech signal without considering the noise sub-band energy distribution. The speech detection method proposed in this paper considers the frequency energy distribution of speech and noise simultaneously. The linear mapping method is used to map the subband energy feature space of Mel filter bank to the most distinguishable one-dimensional subspace of noise and speech. The new characteristic parameter EL MBE performs speech detection. Experimental results show that the energy parameters based on linear mapping have better speech detection performance than time-domain energy and time-frequency based energy under noisy environments.
其他文献
前不久,一位姓李的汽车司机来医院就诊,他因长年跑长途,一年前,患上了“胸痛”毛病,四处求医,但均未见效。曾被诊断为胃病、心脏病、肺病等等,吃了许多药物也不见好转。直到最近,经过有关专家会诊,才明确诊断为“胸骨剑突炎”。  确实,李师傅患的毛病,是一些驾驶员的常见病和多发病。我们知道,胸骨,不仅长而且扁,在胸前壁正中位于皮下,由上而下分为胸骨柄、胸骨体及剑突三部分。胸骨柄是胸骨最阔最厚的部分,胸骨体