神经网络时序分类方法在语音识别中的应用研究

来源 :东北石油大学 | 被引量 : 0次 | 上传用户:ajdujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域研究的深入以及大数据语料的不断积累,语音识别技术得到突飞猛进的发展,神经网络开始大规模应用于语音识别技术,端到端语音识别成为近年来人工智能研究的热点课题。然而,由于特定说话人含有不同发音特性、不同语种发音特性不同等原因,导致端到端语音识别模型对中文的识别准确率偏低。基于以上背景,本文结合中文语言模型对现下主流端到端语音识别框架的结构进行研究和改进,以提高端到端语音识别框架对于汉语的识别准确率和效率。首先,本文设计基于传统隐马尔科夫-混合高斯声学模型结合词典和N-gram语言模型的建模方法作为本文的基线实验。在对隐马尔科夫-混合高斯模型的研究中,对语音信号易于受到上下文内容影响的问题,设计利用上下文相关的三音素声学模型,通过考虑每一音素相邻的前后音素,进而提升模型性能。同时,对语音易受到说话人发音特性影响的问题,设计融合说话人自适应技术的隐马尔科夫-混合高斯模型的建模方式,以提高本文基线实验的识别准确率。其次,本文针对端到端框架对中文识别准确率较低的问题,提出结合语言模型的非完全端到端框架的语音识别方法,将非完全端到端框架应用于神经网络时序分类方法对语音识别的研究中。针对LSTM-CTC端到端模型计算复杂度高,训练速度耗时过长的问题,本文提出了一种改进的映射长短期记忆时序网络,用以优化模型的训练速率。同时针对语音特征的长时依赖性并不只有正向传播的特点,在端到端模型中设计采用双向映射长短期记忆时序网络,替代固有的单向长短期记忆时序网络,通过对语音特征进行双向提取,从而提高模型的准确率。最后,选取希尔贝壳公司的AISHELL语音数据库对本文所提出的方法进行实验验证,针对实验过程中双向神经网络训练易产生过拟合的问题,将语音数据库通过速度扰动技术进行扩充、实验。最终实验结果显示,模型的准确率和速率较基线实验结果都得到显著提升。
其他文献
为确保LPG球罐的安全,结合LPG的特性提出在球罐设计过程中需要考虑的问题,依据相关标准和规范,着重就球罐的设计压力、装量高度、设计选材、结构设计、安全泄放装置、最高允许工
提名理由:马援的绘画特点是把具体的生活场景与人物外在形态,给以删繁就简、去粗取精,使之以一般性的风情描绘与文学性的情节叙述内容中,提炼为一种现实生活的感觉与情感表现。马
针对图像信息检测中由于被测物表面不平、反光等原因而导致暗区信息丢失的问题 ,提出一种拟人类视觉自适应调节原理的数字补光方法。该方法通过软件手段可以有效地对被测物的暗区信息进行强调提取
随着国家加大对足球产业的投入力度,足球产业有着广阔的发展前景。2012年中国足球协会进行改革,选定成都、广州、大连、青岛、武汉这五个城市,作为中国足球发展的试点城市。
各级部门多次三令五申,鼓励干部带薪休假,体现出党和政府的人文关怀。绝大多数单位执行都比较有力,干部们都乐呵呵趁暑假带娃旅游去了。但是,太过于基层的乡镇就不一样了!你
【正】 中国绘画有两千年的光荣传统。如果把彩陶上的纹饰也列入绘画之门,它的历史就更长了。她像是养在深闺,孤芳自赏,很少为人所识。其实,这个看来有些孤僻的老姑娘,有时也
目的对基本公共卫生服务工作进行多指标质量综合评价,为科学合理地开展基本公共卫生服务提供依据。方法应用TOPSIS法对基本公共卫生服务质量的27项指标进行质量综合评价。结
长沙正处于都市化快速发展阶段,近域地区城市化进程加速,目前规划和在建的“十大新城”大多位于近郊地区,形成“都市近域新城带”,“十大新城”如何结合各自的资源禀赋和功能
目的:研究p16及Bmi-1蛋白在肺鳞癌和腺癌细胞块中的表达和二者的相关性,以及与肺鳞癌、腺癌临床病理特征的关系。方法:应用免疫组化法检测35例非小细胞肺癌细胞块标本中两种
本报6月9日讯(通讯员 吴文峰 记者 李国斌)近日,长沙市文物局在望城县黄金乡进行文物调查时,发现一处跨越千年的“谷山砚”采石场遗址。$$  该遗址位于望城县黄金乡谷山西北一
报纸