基于DNN的汉语语音识别声学模型的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ghostframe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的语音识别声学模型建模方法中,高斯混合模型(Guasian mixture model,GMM)一直占主导地位。然而,在实际应用场景中,汉语连续语音识别系统的识别效果并不理想。另一方面,人工神经网络在早期也用于声学模型建模,但在实际应用中其效果不及高斯混合模型。深度学习是近年来受到研究学者广泛关注的新兴机器学习技术,该技术主要探讨深度神经网络(Deep neural network,DNN)的建模与学习问题,对复杂问题具有很强的建模能力。深度神经网络指的是具有多层隐藏层的表示非线性关系的神经网络结构,该结构已被成功应用到与语音,文本和图像数据相关的问题。本课题首先结合三元文法语言模型建立了一个上下文相关的高斯混合模型——隐马尔可夫模型汉语连续语音识别基准系统,重点分析了模型训练过程中涉及的相关问题。另外本文还构建了两个使用了深度神经网络的汉语连续语音识别系统。其中一个系统基于深度神经网络——隐马尔可夫模型结构,在该系统中,使用深度神经网络描述给定语音信号观测特征时隐马尔可夫模型中不可观测状态的分布模型。在训练该系统的声学模型时,利用一种迭代贪婪训练算法进行训练,使用该算法能利用大量的无标签训练语料,并且可以使用预处理方法初始化深度神经网络中的权重,以帮助目标函数的优化,降低泛化误差。另外一个为基于深度神经网络的Tandem语音识别系统,该技术利用深度神经网络对语音数据作特征提取,并将新的特征向量作为汉语连续语音识别系统的输入特征向量。实验结果显示,基于深度神经网络的语音识别系统取得了较好的识别率,优于传统的依赖于上下文相关技术的GMM-HMM模型,但同时训练时间也相应增加。深度神经网络可以利用连续多帧的高维语音特征向量及语音数据的内在模式进一步提高识别率。
其他文献
金秋十月,金大校园,生气盎然,2000级新生入学基本完毕,全日制在校生达到1600人,办学规模的发展又迈出了坚实的一步。 招生作为学校的大事,被党政领导班子提到更加突出的地位
目的探讨雷替曲塞联合伊立替康二线治疗大肠癌的疗效及安全性评价。方法选择2011年6月~2014年12月间的78例经FOLFOX方案一线化疗失败的复发性或转移性大肠癌患者,随机分为FOL
随着社会经济的发展,农业行业发展越来越迅速,其为社会发展的基础性行业,已经成为国民经济的重要组成部分,对社会发展和进步具有重要意义。在以往农业生产过程中,农民通常依
本报讯(记者 傅之庭 通讯员 魏朝辉)记者近日从宁波港鑫东方燃供仓储有限公司了解到,该公司一期及扩建项目工程进展顺利,其中一期项目大部分工程进入扫尾阶段,两个5万立方油罐本月
报纸
采用单因素试验和正交试验,进行微波辅助提取绞股蓝黄酮的工艺研究,得到微波辅助提取绞股蓝黄酮的最佳工艺条件:溶剂为30%乙醇溶液、料液比1:32(g/mL)、微波处理时间15min;在
同伴反馈是英语写作教学中的一个重要环节,尽管受到了写作教学界的广泛认同和应用,然而同伴反馈可导致错误漏改。该文对西部地方二本非英语专业本科生进行了一项实证调研。结
随着我国进入了快速发展的新时代,互联网信息技术也走上了快车道,物联网等相关技术的快速发展加深了移动网络技术的发展。尽管5G技术没有在物联网中广泛普及应用,但它未来的发展空间仍是无限的。随着传播速度与原有方式相比得到了大幅度的提升之后,通信技术与物联网技术之间的联系也促进了物联网大数据的快速发展。因此,本文从5G和物联网的技术概念入手,分析了类似的技术特征和需求,在物联网技术运用与开发过程中,最新的
本文是在研究以多醣类物质作吸附剂制取无水乙醇的新工艺基础上,采用迎头色谱法测定了吸咐等温线,突验数据通过回归分析,获得符合Freundlich型的吸咐等温方程,计算值与实验结
以地理信息系统(GIS)为技术支持,结合污水管网管理的实际需求,在VB环境下利用GeoMap控件进行二次开发,建立了污水管网地理信息系统。该系统充分发挥了GIS对空间、属性数据的编辑、管理、显示和查询的功能,并实现了在GIS环境下对污水管网流量的计算和水质的分析功能。
英汉数量的表达,差异是很大的。这种差异对于学习英语的阻碍,是现实存在和显而易见的。英汉数量的表达方式,各有千秋,皆存长短,颇值分析和欣赏。从名词修饰、结构搭配和各自