电话信道下说话人分离及识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:doudou2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电话信道环境下,说话人身份认证/识别面临的核心问题是由合路语音所带来的通道差异及通话双方信号的相互干扰,这种干扰对说话人的训练和测试都是严峻的考验。本文主要研究两人对话语音条件下说话人识别的鲁棒性问题。论文工作的主要内容和创新点如下:   1.在联合因子分析框架下,研究和对比了多种置信度计算方法,在一阶近似的泰勒展开基础上提出对称形式的评分方式。该置信度计算方法克服了传统计算方法中训练和测试语音不对等的缺点,使得任意给定的两条语音在说话人层面的相似度能够保持统一,而与顺序无关。   2.在此基础上深入分析了内积形式的分数归一化方法的意义,并将其推广到支持向量机的核函数中,直接在核函数形式上引入隐式的归一化准则,从而避免了系统后端的分数归一化后处理。   3.由于目前主流的说话人算法均是基于通用背景的高斯混合模型,而高斯混合模型的充分统计量提取一直是影响系统速度的瓶颈所在。对此提出了一种数据驱动的高斯选择方法,利用数据对声学空间进行划分,然后结合后验概率提前绑定高斯列表,实现快速、高效的统计量提取。实验表明在性能几乎无损的情况下,统计量提取模块速度提升10倍左右。   4.对于说话人分离,利用说话人识别中已趋成熟的iVector技术,提出将变分贝叶斯方法与iVector相结合,使得在聚类过程中每个片段以一定的概率属于某个说话人(软决策),并利用EM算法不断优化这个后验概率,最终在NIST-SRE2008合路测试数据上将分离错误率从13.8%降到6.88%,重分割之后进一步降低至5.34%。   5.在涉及多条合路语音的训练阶段,提出用PLDA模型进行公共说话人的提取,针对不同组合方式的选择策略给出了多种目标函数的形式化描述。在NIST-SRE2008评测中的3summed-summed任务上,将等错误率从NIST官方公布的最好结果(约8%)降低至4.05%。
其他文献
人左右眼间距的存在,使得同一空间物体在左右眼视网膜上的投影存在位置差异,称之为视差。立体匹配旨在研究如何准确鲁棒地计算左右图像的视差,是计算机视觉研究的核心问题之一,具
大脑是由多个相互连接的网络构成的复杂系统,其中相互关联的网络模块(如:皮质区域)具有不同的功能。一个基本问题是在这样的系统中是如何进行信息处理和网络如何生成对应的认
近年来,在石油、化工等危险场所,现场总线的应用日益广泛,本质安全技术以其体积小,可靠性高,成本低以及在危险场所能带电操作而成为了现场总线系统中防爆型式的首选。与传统的本质安全技术不同的是现场总线本质安全系统技术具有“多负载”特征,而且要求满足“可互换性”和“可互操作性”,也就是允许不同的制造厂商生产的总线电气设备可以自由的挂接在同一个总线中,并且实现相互之间的通信。对于现场总线技术而言,希望负载能
近年来,统计机器翻译的研究十分火热,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件却仍然独霸专业翻译市场,统计机器翻
打乒乓球机器人为一手眼协调系统,通过视觉系统“感知”乒乓球的飞行状态,利用视觉测量数据和人工智能算法对未来的飞行轨迹进行预测,并通过控制系统“决策”出机器人的运动轨迹
随着笔输入设备和笔式用户界面的广泛应用,联机手写文档分析、识别和检索技术成为重要的研究方向。一夜惊喜技术虽然取得了很大的进步,但是受到识别精度的影响,不能够正确识别的
三维计算机视觉的核心是从二维图像恢复三维物体可见表面的几何结构。作为计算机视觉的主要任务和目的,三维计算机视觉在工业、军事、医学、日常生活、娱乐等方面有着广泛和重
该文从系统的角度,对洪灾损失评估及防洪最优决策的基本理论与方法进行了较为系统、深入的研究,主要内容包括:1.论述了洪灾损失评估及防洪最优决策研究的意义.2.分析了洪水灾
当今信息技术领域,成像技术的快速发展使得人们所获得的图像尺寸持续增大、图像信息量明显提升。然而,对于一幅图像,人们所关注的图像信息往往只是其中的一小部分。如今大多数传
研究适用于解决复杂流程工业企业生产装置操作优化问题的新型多目标文化智能优化算法并进行实际工程应用,对增强企业在市场经济中的核心竞争力,提高企业的经济效益和社会效益