面向说话人识别的深度学习方法研究

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:Roy163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为当今社会最热门的生物特征识别技术之一,被广泛应用在人机交互、身份验证、信息检索等方面,具有重要的研究意义和实用价值。近年来,随着深度学习在语音识别的成功应用,基于深度学习的说话人识别研究也受到研究学者们的广泛关注。本文主要研究面向说话人识别的深度学习方法,研究解决如何有效结合深度学习理论和说话人识别技术,在有限训练数据的条件下建立识别系统;如何结合不同种类的深度神经网络,构建高性能的说话人识别模型。主要研究内容如下:(1)研究了基于MFCC-CNN的说话人识别方法。虽然深度神经网络可以将特征提取与识别分类集为一体,直接对原始语音进行端对端识别,但前提是需要大量的训练数据才能获得较好的识别效果。为了提高少量数据环境下说话人识别效果,本文构建一种基于MFCC-CNN的说话人识别模型。该模型是先从原始语音中提取MFCC(Mel-Frequency Cepstral Coefficients,MFCC)参数作为语音特征,再利用CNN(Convolutional Neural Network,CNN)进行识别。同时,为了防止过拟合,通过引入Dropout和L2正则化的方式对模型进行优化。实验结果表明,基于MFCC-CNN的说话人识别方法在网络训练时间大幅缩短的情况下,识别率高于基于端对端的深度说话人识别方法。(2)研究了基于MFCC-CNN-LSTM混合深度神经网络的说话人识别方法。CNN可以克服传统说话人识别中时频偏移导致的不稳定问题,却没有考虑语音上下文之间的关联信息。本文提出一种基于MFCC-CNN-LSTM的说话人识别方法,首先用CNN提取帧间特征,然后用LSTM(Long Short Term Memory,LSTM)对上下文语音帧识别。该方法结合了CNN和LSTM模型的优点。实验结果表明,MFCC-CNN-LSTM混合模型识别性能优于单一的MFCC-CNN模型和MFCC-LSTM模型,且具有较好的鲁棒性。
其他文献
目的观察疏风止咳法辅助治疗小儿咳嗽变异性哮喘(CVA)发作期风热袭肺证的临床疗效。方法将73例CVA发作期风热袭肺证患儿按照随机数字表法分为对照组37例和治疗组36例,对照组口
目的探讨引导式教育对脑瘫儿童手运动功能和日常生活活动能力(ADL)的影响。方法个体队列研究(B-A-B设计),对象为64位脑瘫儿童,GMFCS分级为2-4级,年龄3-6岁。B期4.5个月的特殊
会议
目的:评价世界卫生组织生活质量-100(WHOQOL-100)量表在中国脊髓损伤人群中应用的信度、效度.方法:对1989-01/2002-12在中国康复研究中心进行过康复的386例脊髓损伤患者进行
当前我国高速公路发展速度很快,高速公路收费为这一发展提供了必要的资金保障。高速公路收费系统的发展,经历了从人工收费方式到半自动计算机人工收费方式再到全自动计算机收
通过分析城市气象观测站存在的必要性,对城市自动气象观测站综合建设方案进行了设想,并从电源部分通信系统、自动气象观测设备部分、观测室部分作了阐述,以期将城市气象观测站纳
近年来,国家对高校的经费投入力度不断加大,高校必须加强财务管理工作,在一定程度上促进高等教育的发展。本文主要针对高校经济事项的决策和论证过程进行分析,探讨如何规范操
[目的]探讨针刺结合康复训练疗法治疗中风偏瘫的有效性。[方法]50例中风偏瘫患者随机分为2组,治疗组25例,对照组25例,并进行疗效及神经功能缺损评定。[结果]治疗组总有效率为
校本课程有广义和狭义之分。广义的校本课程指的是学校所实施的全部课程,既包括国家课程、地方课程,也包括自行开发的课程。而狭义的校本课程专指校本课程,即学校在实施好国
近年来,随着我国经济的发展,市场竞争日趋激烈,民营企业迅速崛起,成为促进我国经济增长的重要力量。其中企业文化作为企业参与市场竞争的核心竞争力,在企业管理和发展中发挥
国际干散货海上运输主要通过不定期船的形式来实现,随着世界各国经济的发展,对干散货的需求不断增加,国际干散货海运市场的规模也在不断扩大,干散货贸易在全球海运贸易市场中