音素识别机制的设计与实施

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:wfn031641lpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音素识别技术一直是当今社会人工智能的一项研究热点。传统的音素识别机制采用HMM-GMM模型进行建模,本文的CMU-SPHINX系统便是基于HMM-GMM建模的音素识别机制。随着近年来技术的不断革新和进步,神经网络技术在人工智能领域取得了飞速的发展和应用。鉴于神经网络具有更强的特征表达能力,并在相关的领域取得了良好的效果,因此本文又引入了基于ANN-HMM的音素识别机制——LC-RC音素识别机制。最后本文在两个基准系统上进行了必要的优化,提高了系统识别的准确率。本文的主要工作如下:(1)依托开源软件,搭建了 CMU-SPHINX和LC-RC基准音素识别机制,并对两个基准系统进行了必要的测试与分析;(2)搭建了基于CMU-SPHINX系统的中英文语言模型训练及测评系统,利用HTK工具包得到了 Lattice格式的语言模型;(3)针对汉语语声的音素构成开展了研究工作,根据汉语语声的发音特点,较为合理地将汉语音素数目由125缩减至38,大大降低了模型复杂度,取得了一定的性能改进;(4)利用语音信号的基音特征对音素边界进行校准,为LC-RC系统的声学模型训练提供更准确的标注数据;(5)面向汉语和英语语声数据,追踪LC-RC系统神经网络训练过程中损失函数的变化,并依据其变化情况对基准系统的学习速率和迭代情况进行了必要优化,取得了一定效果;(6)在基准系统的基础上,融合语音的韵律特征,使两个基准系统的识别准确率均得到了一定提升。
其他文献
该翻译实践原文选自《劳特利奇口译手册》第五章,属于信息类文本。该书涵盖范围内容广泛、充实,既可以为口译初学者提供入门知识,也能为专职翻译人员提供各种技巧指导,还可以
有机叠氮化合物作为许多含氮有机分子的重要前体,具有重要的合成应用价值。本文主要探讨了利用烯烃的自由基叠氮化双官能团化反应合成有机叠氮化合物的方法。论文包括以下两
目的:探讨维、哈、汉三民族原发性高血压患者肾素活性与左心室肥厚的关系。方法:从2013年1月至2016年9月在新医大一附院高血压科诊疗的高血压病人7983例中,筛选出符合标准的
富文本编辑器是在互联网中被广泛使用的一种WEB应用组件,因为其相对于普通编辑器具有更自由的可编辑性,这也使得跨站脚本漏洞在富文本编辑器上更具有危害性。跨站脚本漏洞(XS
毫米波通信技术由于可以提供足够大的带宽将成为下一代无线通信系统的重要技术之一。由于很多关键技术,如预编码/合并,都依赖于信道状态信息,高精度低开销的毫米波信道估计是
本翻译实践原文节选自“教育应用软件与教育:‘学习科学’之经验”的前四章。研究聚焦幼儿市场的教育类软件发展趋势,旨在为此类应用软件建立科学合理的测评规则。该研究提出
随着信息技术的快速发展,网络成为了人们工作生活中不可或缺一部分,浏览器作为网络的重要入口,其安全问题也显得愈发重要。各大厂商为其推出的浏览器产品设计了多种安全方案,
在1986年,P.P.Power报道了首例三配位硼阴离子自由基。自此,硼自由基的合成和稳定得到了快速的发展并已经成为新兴的研究领域之一。在有机合成、生物医学、功能材料等领域发
中国经济在全球范围内得到了全面的发展,主要得益于世界经济环境的支持,同时国内企业也开始持续发力,才有了成为全球第二大经济体的闪耀成绩。中国经济的发展给国内港口企业
随着现代通信技术的飞速发展,互联网通信业务呈指数增长,人们对于信息传递的速度以及通信容量的需求也在大幅度上升。为了达到大容量传输的目的,多进制相移键控(MPSK)凭借其