【摘 要】
:
为了提升说话人识别系统的性能,本文以x-vector系统为基础,结合卷积神经网络与注意力机制,着重分析基线系统存在的问题,并探索有效的解决方案。(1)采用卷积神经网络提取声学特征。在语音技术领域经常采用MFCC作为输入特征,而这种经验性特征存在一定问题。本文采用最原始的声学参数--语谱作为输入特征,其中含有更多的说话人原始性信息,同时,利用卷积神经网络(Convolutional Neural N
论文部分内容阅读
为了提升说话人识别系统的性能,本文以x-vector系统为基础,结合卷积神经网络与注意力机制,着重分析基线系统存在的问题,并探索有效的解决方案。(1)采用卷积神经网络提取声学特征。在语音技术领域经常采用MFCC作为输入特征,而这种经验性特征存在一定问题。本文采用最原始的声学参数--语谱作为输入特征,其中含有更多的说话人原始性信息,同时,利用卷积神经网络(Convolutional Neural Network,CNN)的局部感知和权重共享的机制,对语谱进行自动优化并完成降维,避免了经验性特征计算所带来的信息损失。(2)注意力机制应用于统计层的计算。在x-vector统计层,直接计算帧特征的均值和标准差,默认每一帧的重要性相同,这种假设明显不合理。本文引入注意力机制来解决上述问题,主要采用两个方案:第一种方案是引入注意力层,即通过注意力层来增强关键帧的信息以及语音信号内部的关联性,并通过多头注意力来获取序列之间不同的依赖性;第二种方案是建立基于注意力的统计层,直接修改统计层的计算机制,计算加权均值和标准差,并与多头注意力相结合。(3)利用Kaldi语音工具平台在VoxCelebl数据集上进行实验。主要对比分析了不同声学特征以及不同的网络结构对系统性能的影响。实验结果显示,相比于x-vector基线系统,语谱结合CNN在EER(等错误率,Equal Error Rate)上相对降低6.5%,引入注意力层方案在EER上相对降低了 13.5%,而基于注意力的统计层方案在EER上则相对降低了25.5%。实验结果证实,本文所提出的:利用CNN从语谱直接提取并优化特征,及注意力机制改进x-vector统计层计算,方案合理且效果显著。
其他文献
为了提高UART IP核的可重用性和灵活性,将其中波特率发生器模块设计成自适应的波特率发生器,同时采用异步FIFO作为UART与外部数据交换的缓冲器,实现处理器与UART接口的速度匹
2011年至今,我国经济连续五个季度放缓,特别是今年以来,经济放缓压力进一步增大,市场弥漫着对中国经济形势悲观的预估。随着“人口红利”、“资源红利”衰竭以及“刘易斯拐点”的
随着我国经济的快速增长,人类生产活动引起的灰霾气溶胶污染日益突显,加上受春季沙尘气溶胶输送的影响,全国各大城市面临的大气环境问题不断加剧。通过微脉冲激光雷达(Micro Pul
中国经过二十多年的快速发展,越来越多的设计师开始思考设计的价值与意义,更加审慎地思考设计对于生活的影响—"慢"生活将有助于形成相对恒定的审美意识和生活方式,将帮助我
城市色彩环境作为城市景观规划的一部分,是城市面貌和文化的重要体现。近年来,随着城市经济的飞速发展,各种户外广告和公共设施的更新和遍布,造成许多城市中街区色彩混乱现象
目的探讨急性缺血性卒中患者血清C反应蛋白(CRP)与早期神经功能恶化(END)之间的关系。方法自2005年1月至2011年12月,回顾性研究378例急性缺血性卒中患者,所有患者均在发病后2
<正>一、国内小微企业现状调查据2011年中国企业调查系统数据显示,目前停产、半停产的小微企业约占15%~20%。而小微企业面临的主要问题是融资难。2011年小微企业面临了多重困
<正>长春西汀是从夹竹桃科小蔓长春花中提取出的一种天然药物,长春花是常见的类似藤本的长绿地被植物,属吲哚类生物碱,分布于中南欧等地区,化学名为乙基阿朴长春胺-22-醋酸乙
改革开放以来,我国利用外资取得了很大的成就,2010年,实际利用外资额已达1057.4亿美元。随着每年外商直接投资的增加,外商直接投资促进了我国对外贸易的发展,我国外贸规模不断扩大
本文介绍了电气工程及自动化专业的教学课程划分,包括其一级教学课程和二级教学课程。另外,还介绍了电气工程及自动化专业的教学内容的改革,从两个课程的教学内容改革进行介