论文部分内容阅读
在电话信道环境下,说话人身份认证/识别面临的核心问题是由合路语音所带来的通道差异及通话双方信号的相互干扰,这种干扰对说话人的训练和测试都是严峻的考验。本文主要研究两人对话语音条件下说话人识别的鲁棒性问题。论文工作的主要内容和创新点如下:
1.在联合因子分析框架下,研究和对比了多种置信度计算方法,在一阶近似的泰勒展开基础上提出对称形式的评分方式。该置信度计算方法克服了传统计算方法中训练和测试语音不对等的缺点,使得任意给定的两条语音在说话人层面的相似度能够保持统一,而与顺序无关。
2.在此基础上深入分析了内积形式的分数归一化方法的意义,并将其推广到支持向量机的核函数中,直接在核函数形式上引入隐式的归一化准则,从而避免了系统后端的分数归一化后处理。
3.由于目前主流的说话人算法均是基于通用背景的高斯混合模型,而高斯混合模型的充分统计量提取一直是影响系统速度的瓶颈所在。对此提出了一种数据驱动的高斯选择方法,利用数据对声学空间进行划分,然后结合后验概率提前绑定高斯列表,实现快速、高效的统计量提取。实验表明在性能几乎无损的情况下,统计量提取模块速度提升10倍左右。
4.对于说话人分离,利用说话人识别中已趋成熟的iVector技术,提出将变分贝叶斯方法与iVector相结合,使得在聚类过程中每个片段以一定的概率属于某个说话人(软决策),并利用EM算法不断优化这个后验概率,最终在NIST-SRE2008合路测试数据上将分离错误率从13.8%降到6.88%,重分割之后进一步降低至5.34%。
5.在涉及多条合路语音的训练阶段,提出用PLDA模型进行公共说话人的提取,针对不同组合方式的选择策略给出了多种目标函数的形式化描述。在NIST-SRE2008评测中的3summed-summed任务上,将等错误率从NIST官方公布的最好结果(约8%)降低至4.05%。