论文部分内容阅读
本文主要研究在对话语音中检测目标说话人,并定位目标说话人语音的问题。目标说话人检测,是指在一段多个人连续说话的对话语音中判断目标说话人是否出现;目标说话人定位,是指在目标说话人检测的基础上,当检测到目标说话人在对话语音中出现时,对目标说话人在对话语音中出现的具体的时间段进行估计。本文的研究基于事先已经知道目标说话人这样一个前提。
目前,对话语音中的目标说话人检测和定位问题,主要是采用以下方法来解决。首先,检测出对话语音中的说话人跳变点,将不同说话人的语音分割开来;然后,对分割后的语音段进行说话人聚类处理;最后,使用单个说话人识别技术在对话语音中识别出目标说话人的语音,从而达到在对话语音中检测和定位目标说话人的目的。我们将这种基于说话人的语音分割、聚类以及说话人识别的方法称为硬分割。本文在研究和总结前人成果的基础上,针对硬分割的缺陷,结合实际情况,提出了单帧对数似然比算法。相对于硬分割,本文将这种基于单帧对数似然比算法进行对话语音中的目标说话人检测和定位的方法称为软分割。
与硬分割相比,软分割主要有以下几个优点:第一,充分利用了已知目标说话人这个先验知识,将目标说话人检测问题作为解决目标说话人定位问题的前提和基础,只有在对话语音中检测到目标说话人的情况下才进行目标说话人定位。因此,软分割方法更为简洁、高效。第二,在参与对话的说话人个数未知的情况下,由于不需要对对话语音进行基于说话人跳变点的细致分割,因此在这种情况下软分割仍然适用;而硬分割在这种情况下因无法进行准确的说话人聚类而不再适用。
实验表明,从总体上来说,软分割的性能要好于硬分割。而且,软分割的实用性、实时性以及鲁棒性均要好于硬分割。