基于深度卷积神经网络的中文语音识别

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:guweichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言和语音是人类交流沟通最主要、最直接的方式,在日常生活中有着不可替代的作用。随着深度学习的发展和人工智能技术的不断进步,人们对于语音识别的要求也越来越高,由此催生了一系列针对语音识别技术的研究与开发。汉语作为我们的母语,是全球使用人数最多的语言。汉语中不仅有大量的同义字和同音字,还包括声韵母及音调,识别过程复杂,难度较大,因此中文语音识别的效果不够理想。深度学习(Deep Learning,DL)作为近年来最受关注的机器学习模型,在语音识别、图像处理等多个领域取得了惊人的成果。但是,深度神经网络(Deep Neural Network,DNN)作为目前主流的声学模型,由于网络层数过深会破坏语音信号特征,因此在一定程度上影响了语音识别的效果。而卷积神经网络(Convolution Neural Network,CNN)中特有的卷积池化层能够有效地减少训练过程中的参数量,从而可以更好的应对中文的大量数据处理过程,降低模型复杂度,提高中文语音识别的准确率。为此,本文以基于深度卷积神经网络的中文语音识别系统作为研究对象,提出了一种优化的端到端深度卷积神经网络声学模型。本文完成的主要工作包括:(1)针对传统声学模型在训练过程中语音强制对齐现象,结合端到端结构,提出了端到端卷积神经网络(CTC-CNN)声学模型,实现了对输入输出序列的似然度优化,实验结果表明基于CTC-CNN声学模型的中文语音识别系统词错率达到了23.6%。相比于CNN声学模型的中文语音识别系统,正确率提高约1.2%。(2)CTC-CNN模型中,CNN为两层卷积结构,层数较浅,模型识别效果有限。为了进一步提升准确率,采用残差块结构设计了端到端深度卷积神经网络(CTC-DCNN)模型,并通过maxout函数进行优化,改善模型梯度消失现象。实验结果表明,这种新的改进的端到端深度卷积神经网络(改进CTC-DCNN)声学模型,相比于CNN模型,语音识别的词错率可降低4%-4.7%。(3)设计并构建了完整的基于深度卷积神经网络的中文语音识别系统,并将改进CTC-DCNN模型和传统的CNN模型、CTC-CNN模型以及DCNN声学模型等进行了实验及对比分析,验证了本文所提出的改进CTC-DCNN模型具有更好的鲁棒性和识别准确率。此外,还通过不同的迭代次数进一步验证模型的性能,并对一定噪声环境下CTC-DCNN模型的识别效果进行了初步探索。
其他文献
佛山培育工匠精神,应抓住三个着眼点:全面深化改革、制造业转型升级、城市文明构建。在培育工匠精神过程中,还应注重将培育工匠精神和标准化体系建设相结合、和品牌化战略相结合
报纸
4月21日,"深圳市2016年度生态文明建设考核现场陈述会"在深圳市委党校召开,深圳市10个区(包含新区)、17个市直部门和12个重点企业的主要负责人现场陈述2016年度生态文明建设工作
城市园林植物群落是生长在城市环境中的植物群落,属人工型植物群落。由于所处的自然环境相对恶劣,人为因素的干扰较大,城市中的园林植物群落与自然植物群落有很大差异。目前国内
近期猪肉价格的持续上涨引发相关副食品价格的连续上扬,引起了政府部门的高度重视。探究生猪生产供应不足、需求相对过旺背后的深层原因,使相关部门人士认识到了农业保险作为
本文对城市交通流仿真、交叉路口信号智能控制及仿真进行了研究。首先利用元胞自动机理论建立交通流仿真模型,在此基础上,利用模糊控制的近似推理适合解决主要由人做决定的主观
目的:采用细胞毒性试验和口腔粘膜刺激试验对自行研制的300g/l蜂胶提取液的生物安全性进行初步的评价。通过建立口腔溃疡动物模型后检测该蜂胶提取液对口腔溃疡的治疗作用,为这
目的:研究遗传因素对延边地区朝鲜族和汉族的消化性溃疡(peptic ulcer,PU)发生的作用。方法:通过遗传流行病学病例对照研究,应用Li-Mantel-Gsrt和Faleoner方法进行PU的分离比及遗
语音是汉语学习的基础,学习汉语的基础是学习汉语的语音,这对马达加斯加学生也不例外。近些年学习汉语的马达加斯加学生越来越多,而对于马达加斯加学生学习汉语的研究还比较
批判性思维(criticalthinking)作为创新精神和创新能力的核心要素,在学习、研究和工作中发挥着极大的作用。而母语教材不仅仅是实践语文教育培养目标的重要凭借,同时也是体现
心脏和肾脏在心、肾疾病的发生发展中是两个互为影响的重要器官。研究发现,肺也参与心肾疾病的病理生理过程,从而使传统意义的心肾综合征(CRS)定义面临新的挑战。CRS临床表现