论文部分内容阅读
语声场景分析要解决的问题是针对一段包含有多个未知说话人的语音文件,发现其语声场景发生改变(如说话人的切换,语音和非语音的切换等)的位置,并将不同说话人的说话语段区分标注,将相同的说话人标注为相同的标签。作为说话人识别技术的应用之一,它解决的问题是,在待处理的测试语音中的说话人人数、说话人身份、说话人性别、说话人所在场景等信息都未知的条件下,检测和识别出各个说话人在什么时间段说了话,实现对音频文件中的不同说话人的语音进行有效分割和检测。语声场景分析系统有着广泛的应用前景,如,针对新闻广播、会议记录、影视剧集等音频资料,利用该技术实现对语音中的说话人进行检测和跟踪,高效的提取说话人的富文本信息。语声场景分析系统主要包括语音特征提取、语音检测、说话入切换点检测和说话人聚类这四大步骤。本文重点在以下方面进行了研究:(1)概括和归纳语声场景分析系统的发展现状和技术基础。(2)对法国阿维尼翁大学(LIA)提出的基于E-HMM模型的语声场景分析(LIA Speaker Diarization, LIASD)系统进行了分析与测试,发现了LIASD系统存在的问题。(3)为了改善LIASD系统的不足,实现了一个包含说话人提纯过程的语声场景分析(Purified-LIA Speaker Diarization, P-LIASD)系统,并分析了P-LIASD系统的不足。(4)为了实现一个稳定性更良好的语声场景分析系统,本文设计并实施了一套带有多模块的语声场景分析(Multi-Module Speaker Diarization, MMSD)系统(5)分别对系统中包含的核心算法,即语音检测、说话人切换点检测、说话人聚类、说话人提纯、短语段后处理等算法,进行了研究与设计,分析了MMSD系统的核心功能模块的效果及对系统性能的影响。(6)最后对比分析了LIASD系统、P-LIASD系统以及MMSD系统的系统性能,并指出了三者的优缺点,通过语声场景分析错误率(Diarization Error Rate, DER)指标衡量系统的准确性及稳定性。