【摘 要】
:
目前人工智能处于飞速发展时期,人类不断突破技术难点,更新人机交互方式。语音识别是语音交互的基础,因此语音识别技术成为国内外众多学者的研究热点。随着神经网络的兴起及计算机性能的提升,科学家将神经网络应用到语音识别中,使识别率有了显著的提高,同时推动了语音识别类产品的商业应用。本文主要研究基于Kaldi的中文语音识别。阐述了语音识别的基本原理及语音信号特征提取方法,介绍了开源工具Kaldi的WFST解
论文部分内容阅读
目前人工智能处于飞速发展时期,人类不断突破技术难点,更新人机交互方式。语音识别是语音交互的基础,因此语音识别技术成为国内外众多学者的研究热点。随着神经网络的兴起及计算机性能的提升,科学家将神经网络应用到语音识别中,使识别率有了显著的提高,同时推动了语音识别类产品的商业应用。本文主要研究基于Kaldi的中文语音识别。阐述了语音识别的基本原理及语音信号特征提取方法,介绍了开源工具Kaldi的WFST解码机制。重点研究了基于神经网络的声学模型和语言模型。在声学模型方面,为了解决传统声学模型无法利用帧的上下文信息问题,引入表达和建模能力更强的DNN,同时针对DNN无法对语音信号长时相关性建模,使用TDNN建模方法,并基于DT训练神经网络模型。本文采用thchs30语音数据集,借助Kaldi使用MLE方法训练GMM模型和DNN模型,同时使用DT方法训练DNN模型和TDNN模型,以词错误率为判别依据,在测试集上得到的实验结果表明:DNN相较于GMM中性能最好的tri3b模型有更好的识别效果,其词错误率下降了5.8%;进行DT训练后的DNN模型在性能上有所提升;无论是哪种TDNN模型,其性能都优于DNN模型,同一种TDNN模型,在输入特征基础上增加i-vector特征的tdnn_1b模型在本文中的词错误率相对较低,性能相对较好。可见,学习能力更强的神经网络比传统声学模型识别率更高;在基于神经网络的声学模型中,能够对语音信号长时相关性建模的TDNN比DNN表现更好;DT方法比起传统MLE训练方法,能增加模型的分类能力,提升系统性能。在语言模型方面,介绍了常用的N-gram语言模型并进行平滑算法的优化。针对N-gram语言模型的数据稀疏性问题,采用能更好描述语句间关系的RNN来训练语言模型。依据困惑度指标,不同语言模型在测试集上的结果表明:RNNLM的困惑度比起4-gram有所下降,说明能充分利用历史信息的RNNLM性能更好;隐层神经元个数为300的RNN模型的困惑度最低,在本文性能最好。最后的解码识别阶段,在基于tdnn_1b和3-gram构建的基线系统中,依据词错误率标准显示,使用RNN进行N-best重打分,词错误率相较于基线系统有所降低,表明系统性能有了一定的提升。
其他文献
移动通信技术在给人们带来便利的同时,也产生了海量的数据流量,给传输链路带来了极大的压力。为了缓解这一压力,缓存技术被提出并得到了广泛的应用。基于高密度蜂窝网络与设备到设备(Device-to-Device,D2D)通信技术,通过预先将数据缓存到边缘基站或用户中,可以节省核心链路的负担,降低文件的传输时延。传统的流行度缓存策略可以提高用户自身的缓存命中率,但不一定适应所有的场景,因此为了满足不同场景
随着科学技术的深入发展,无线通信网络越来越朝着智能化、多元化的方向发展,第五代移动通信技术5G(5th generation,5G)已经成为当今全球性的研究热点。当前已经进入大数据和人工智能的时代,随着各种智能终端越来越普及,数据流量也出现爆炸式的增长,使得频谱资源更加紧缺。在众多提高频谱利用率的技术中,非正交多址接入技术(Non-orthogonal Multiple Access,NOMA)具
随着第五代移动通信系统(The 5th Generation Mobile Communication System,5G)的大规模部署和商用,国内外研究人员开始了未来第六代移动通信系统(The 6th Generation Mobile Communication System,6G)的预研。预计6G能提供全球覆盖、更高的传输速率、更低的时延和能耗。多输入多输出(Multiple-Input M
随着第五代无线通信系统(The 5th Generation Wireless Communication System,5G)的逐步商用,第六代无线通信系统(The 6th Generation Wireless Communication System,6G)的研究与开发引起了学术界和工业界的广泛关注。6G预计将提供更广的覆盖范围、更高的频谱和能源效率、以及更好的保密性能。可重构智能反射面(R
计算机视觉的一个重要研究方向就是人脸表情识别,人的面部表情是其情绪的重要外在表现,甚至可以说是最重要的外在表现,人与人之间的情感交流很多时候都是通过我们的面部表情来完成的。因此,通过研究计算机对于人脸表情的识别,可以有效的帮助机器理解人的情感,促进人机交互的发展。不过由于一部分人脸表情的界定比较模糊,加上人脸的姿态以及人面部周围的环境的影响会导致机器对于人脸表情的判断的鲁棒性大大降低。本文通过实验
随着无线通信技术的快速发展,5G网络大规模部署,开启了万物互联的新时代。物联网(Internet of Things,Io T)节点如传感器等低成本低功耗设备的数量呈现指数式增长,Io T节点大多以无线设备的形式存在于无线网络中,而无线设备的持续运行依赖于内置的电池供能。但电池容量是有限的,无法在不充电、不更换的情况下长时间为无线设备供能。海量的无线设备带来了巨大的人力运维成本,如何源源不断的为无
随着智慧城市中智慧安防建设的持续推进,一个二线以上城市智慧安防拥有的监控摄像头数量通常会接近或超过百万,智慧监控要求已从看得见、看得清向看得懂进行转变。针对如此巨大规模的摄像头,仅依靠人工浏览对视频监控系统中每个摄像头的质量进行检测评估已变得不太现实,开展城市级规模摄像头的科学视频质量管理已经成为智慧安防的研究热点之一。本文针对城市级视频监控系统中百万及以上摄像头的视频图像的质量评估系统、方法及设
随着人工智能、大数据、物联网等技术的发展,越来越多的数据通过传统传感设备或智能移动设备产生和收集,为了提高数据的传输效率和可用性,原始数据往往需要借助边缘计算进行初步的分析和处理,因此边缘计算网络中将存在大量的可用数据,如果这些数据能够直接在边缘网络中共享,将极大地提高数据的利用率以及加快城市的现代化进程。因此如何在异构边缘节点之间安全地进行数据共享也是当前的一个研究热点。针对边缘计算中数据共享的
文字识别技术是为了将光学字符转变为计算机能够识别的文本字符,使得计算机能够对识别出的文字信息进行更深层次的操作,让人们的生活和工作更加便捷化和智能化。随着OCR技术的迅速发展,有关文字识别的软件层出不穷,应用于金融行业、汽车行业和快递业务等多个领域,但由于中文字符拥有庞大的字符集,其字型结构也较为复杂,因此中文字符的识别技术更加困难。开源引擎Tesseract不仅支持多种字符的识别,还可根据不同的
无线通信技术的发展,给人类社会生活带来了极大的便利,每个人的社会活动都随时进行着信息传递,个人信息传输的效率和质量应是一个需要重点研究的问题。尤其在5G,6G等高频通信技术下,会有更多的终端接入互联网,需要传输的数据将是以前不可想象的。因此,对于无线通信系统信息传递的全过程,各个阶段的研究必须进行客观深入的开展,才能为人类生活提供更好的保障。在非正交多址(Non-Orthogonal Multip