基于深度学习和数据增强的维吾尔语语音识别研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:sun89ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别(Automatic Speech Recognition,ASR)是通过计算机将语音转换为文字的过程。随着神经网络的不断发展,海量数据背景下(如中文和英文)的语音识别系统表现良好,识别的词错误率极低。维吾尔语属于低资源语言,由于缺少足够的训练数据,维吾尔语语音识别系统准确率较低。本文主要通过深度学习技术,针对低资源条件下的维吾尔语语音识别系统的声学建模进行研究,主要工作如下:(1)本文通过对比时延神经网络(Time Delay Neural Network,TDNN)和深度神经网络(Deep Neural Network,DNN)基线系统的模型结构,分析了TDNN模型的优点,将TDNN作为维吾尔语语音识别的声学模型。加入说话人自适应的鉴别性向量(identity vector,i-vector)特征,同时与传统的梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCC)声学特征进行拼接,来提升TDNN声学模型的鲁棒性。采用链式模型训练准则作为目标函数对模型进行训练,相比于传统的交叉熵准则,可以进一步提升TDNN声学模型的性能。(2)基于说话人自适应i-vector和链式模型训练方法的TDNN声学模型虽能提升维吾尔语语音识别系统的准确率,但提升效果有限。为了进一步提升维吾尔语语音识别系统的性能,本文研究了因子分解时延神经网络(factorized TDNN,TDNN-F)的模型结构,TDNN-F在TDNN基础上添加了维数较低的中间层。为了证明基于TDNN-F声学模型的维吾尔语语音识别系统的优越性,本文还将其与基于双向长短时记忆网络和基于注意力机制的端到端维吾尔语语音识别进行对比,实验结果表明,基于TDNN-F的声学模型的维吾尔语语音识别的词错误率更低,模型参数也更少。另外,还研究了速度扰动和频谱增强(Spec Augment)两种数据增强的方法,来缓解维吾尔语语音识别中数据稀少的问题,进一步降低了维吾尔语语音识别的词错误率。(3)综上所述,本文中维吾尔语语音识别系统的声学模型使用TDNN-F,输入特征是i-vector与MFCC,目标函数使用链式模型,使用速度扰动和频谱增进行数据扩充。实验结果表明,在30小时的维吾尔语语音数据集上,维吾尔语语音识别的词错误率为16.78%,与基线系统DNN(20.94%)相比,词错误率下降了4.16%,相对降低了19.86%。最后,基于数据增强的TDNN-F声学模型,搭建了在线维吾尔语语音识别系统,满足实时性和实用性需求,基本达到实用水平。
其他文献
电锅炉以其热效率高、无污染等优点备受行业青睐,是目前供暖设备中一种十分理想的节能环保设备。随着人们环保意识逐渐增强以及传统锅炉烟气排放指标越来越严格的背景下,使用电锅炉进行采暖具有十分重要的意义。新疆某高校新校区供暖项目建设采用蓄热式电锅炉对整个校园进行冬季集中供暖。由于校园内供暖面积较大,需设计多个锅炉供热站对校园进行供热,目前对锅炉供热站的管理主要采用的是片区式分散型管理,导致系统的管理水平不
近些年,国家对公路基础建设十分重视,不断增加投资额,公路基础设施建设呈现一种跨越式发展趋势。但公路建设在满足人民的需求,带动经济发展的同时,亦付出一定的安全代价。由于公路工程项目所处环境、地理位置多较为艰苦、偏僻,存在人为因素不可控,机械设备管理疏忽,管理制度不完善等问题,极易导致安全事故发生,这表明现行使用的公路工程安全管理模式、方法、手段等已经不能满足甚至阻碍了公路行业的发展,所以,迫切需要找
气敏传感器件包括传感材料和传感基底,传统的传感器件多采用金属氧化物半导体材料和刚性基底,其不仅功耗高、应用范围有限,而且会产生一些难以降解的固体废弃物,造成对环境的污染。生物质材料具有绿色环保、可再生、价格低廉、性能易控可调等优点而广受关注。本文采用高温碳化法和水热法分别制备了生物质棉基材料(CFs,ZnO/CFs)和碳量子点(CQDs),碳化制备的棉纤维产生了中空结构,增加了CFs和ZnO/CF
生物氧化法提金的过程是利用细菌氧化难处理的高硫高砷金矿石,分解黄金表面的包裹物以达到提金的目的。因此,在实际提金工艺的生产过程中,最大限度地保证细菌的活性将直接影响提金的效率,其中将氧化槽中的矿浆温度保持在最佳菌种繁育温度就显得尤为重要。首先考虑的是如何合理有效地监测氧化槽内部温度状态,并且达到较优的全局监测效果。完成这项研究课题对后续建立氧化槽温控决策系统以保证金矿产能具有重要意义。但是,金矿一
生物氧化工艺凭借其操作简单、污染排放少、成本较低的优势,在对难处理金矿的预处理中有着良好的发展前景。在生物氧化提金工艺中,通过利用筛选过的浸矿菌群对难处理金矿石进行氧化处理,便于后续的氰化提金。在氧含量适宜的环境中菌落的代谢旺盛,金的产出也就越高,因此准确预测进气量进行对提高最终提金率和降低生产成本都有重要意义。由于生物氧化槽内的反应进程难以直接观测,并且影响菌群所需进气量的因素众多,导致进气量存
生物冶金技术是由微物、水以及空气等几种物质构成的混合系统,是一种典型的湿法冶金工艺。生物氧化冶金工艺作为一种对难处理金矿石预处理技术,具备回收率高、生成成本低、轻污染等优点,成为21世纪竞争力很强的“绿色冶金”工艺。生物氧化预处理过程作为生物冶金过程最为重要的步骤,而在其中起着决定性作用的是矿物氧化率的高低,提金效率也是受此影响。所以,为确保生物氧化冶金工艺的质量,借助优化控制技术将矿物氧化率提高
生物氧化提金技术是黄金提取工艺中最重要的技术之一,该技术投入低,对环境影响小,具有广阔的发展前景。进气量是生物氧化预处理中的一项重要指标,进入气体的多少直接影响着氧化槽中化学反应程度和菌群的活性,进而影响金矿石的提金率。目前,多数提金厂的进气量系统是开环控制,进气量的多少由人工手动调节阀门控制,常常采用“宁多勿少”的策略提供气体,造成了很大的能源浪费,降低经济效益。因此,进气量的精准预测,对提高黄
氧化槽是生物氧化提金的重要设备。然而长期在新疆运行的氧化槽,受高海拔和极端天气的影响,部分传感器和执行器不可避免的会发生故障导致槽内温度急剧变化,参与氧化反应的微生物为此失活甚至死亡,不仅影响提金率而且还会造成巨大的经济损失,因此对工作在极端天气下的氧化槽进行故障诊断是有必要的。通过现场调研,收集到了氧化槽在平稳运行和故障状态下的各项生产数据,结合氧化槽实验设备,展开基于多元数据下的氧化槽综合故障
目前在前驱式纯电动汽车制动能量回收控制策略的研究中,研究者多关注于踩制动踏板进行能量回收,而对其他阶段的能量回收研究相对较少。另外在踩制动踏板阶段,前轮制动力主要是由电机再生制动力与机械制动力按照不同的比例进行分配,这样的分配方式不利于电机再生制动力矩最大化的发挥。针对以上所存在的问题,本课题从两点进行改进,第一点是加入了收加速踏板能量回收阶段,第二点加入滑行阶段来充分发挥电机再生制动扭矩。本课题
随着中国经济的快速发展,大量土地资源被大规模开发利用,导致受污染的土地面积逐渐增加,威胁到了生态环境稳定和农业生产安全。因此迫切的需要开展土壤污染防治工作。土壤水分和土壤盐分作为影响干旱区土壤生态环境的主要因素,对土壤水盐分布状况进行及时、准确的监测是掌握干旱区土壤状况的关键。本研究将以新疆阿克苏地区的渭库绿洲为研究对象,利用Dobson介电模型进行土壤介电特性分析。以Sentinel-1A微波数