论文部分内容阅读
说话人检测是基于生物特征识别技术、从音频信息中搜索和定位目标人出现的次数和时间位置的一种模式识别技术,是语音识别应用领域的一大研究课题。本文基于电视广播音频检索和电话对话犯罪嫌疑人追踪等应用背景,针对连续音频流下说话人检测中的关键问题及技术难点,在以下几个方面进行了研究:
在音频切分方法上,提出了基于熵变化趋势和KL2/VQ聚类的二级音频切分方法。首先,通过音频信号的熵变化曲线,对音频流进行预切分,确定音频流中的潜在变化点。针对基于熵的音频切分的误检率,我们分别采用KL2距离和VQ聚类对预切分结果进行重估,去除潜在变化点中的大量“伪变化点”,进一步改善音频切分的性能。
针对大规模说话人注册库的应用环境,提出了基于FO相关图的说话人分类方法,尽管该方法在分类准确率和处理速度上优于传统的基于模型距离的说话人分类方法,但是仍然不能满足面向大规模说话人群的说话人检测/识别的实时处理要求。基于此,我们通过压缩计算参数的快速匹配算法有效的提高了说话人检测的处理速度。在面向大规模人群的说话人检测中,通过快速匹配算法来提高系统的处理速度,具有潜在的应用前景。
比较了当前流行的说话人识别模型的性能。结合FO特征与MFCC特征,构建了基于FO的分组GMM-UBM说话人识别器,并作了相应的参数优化。实验结果表明,基于FO的分组GMM-UBM说话人识别器具有良好的鲁棒性。
构建了说话人检测系统。分析了实际环境下的噪声消除和补偿技术,从实验的角度验证了各种噪声补偿方法的性能,并在广播音频流和电话对话语音下验证了该说话人检测系统的性能,给出了说话人检测的总体实验结果。