中文语音识别解码技术研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:wyn44298
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文语音解码是中文整句输入的关键算法,也是中文语音识别和合成的重要步骤,是一个具有挑战性的问题,解码的准确率直接影响中文输入性能的好坏,并且对汉语拉丁化或拼音化起到了决定性作用。中文自动语音识别(Automatic speech recognition,ASR)的性能由于深度神经网络的应用得到极大的改善。尽管取得了这一进步,但是建立了一个新的ASR系统仍然是一个具有挑战性的任务,这需要各种资源,多个训练阶段和重要的专业知识。在本文中,采用EESEN框架处理中文自动语音识别问题,着重分析和阐述中文语音识别中的解码问题,并在最后面对现有的技术进行改进。EESEN框架大大的简化了现有的管道技术来构建更先进的自动语音识别系统。EESEN框架中的声学模型涉及学习一个循环神经网络(Recurrent Neural Networks,RNNs)来预测上下文无关目标(音素或字符)的内容。为了解决语音和标签序列之间的对齐问题,必须首先生成帧标签,EESEN框架采用时域连接模型来推断语音和标签序列之间的对齐问题。对于EESEN框架来说,它的一个显著特征是:基于加权有限状态变换器(Weighted Finite-State Transducers,WFSTs)的广义解码算法。这一算法使得词典和语言模型有效结合,并转换为(Connectionist Temporal Classification,CTC)解码。实验结果表明,与标准的混合深度神经网络系统相比,EESEN框架实现了较低的的词错误率(Word Error Rate,WER),同时使得解码速度大大得到提升。
其他文献
吴经熊是民国著名的法学家,他具有扎实的法律基础与丰厚的法律实践经验。近年来人们对于吴经熊法哲学思想的关注较多,然而对吴经熊宪政观的研究是不足的。本文以1930年到1937
音乐史学作为一门涵盖艺术学、历史学、社会学以及哲学等范畴的交叉学科,其本身的复杂属性决定了它选择的研究对象具有一定的特殊性。音乐史不只是作曲家和作品的历史,音乐史
在现代雷达的发展过程中,其核心目的都是为了更多的提供目标信息,而一个可识别的目标通常意味着更多有用信息的获取。针对一个目标而言,获取其位置及空间信息更为重要。对某一目标的多重角度的信息获取是雷达一个重要的应用范围。高频表面波雷达(HFSWR)在海上使用时具有两个明显的优势:首先,通过垂直极化方式(HFSWR)可以观测到地平线以外,其次,它们的信号与海浪的相互作用机制很简单,也很容易理解。使用垂直极
课外阅读作为学生进一步形成其知识结构、养成终身学习的重要途径,应该是在教师指导下展开的自主探究式学习活动。当下,初中英语教学中课外阅读尚未得到应有的重视,除课本之
扬琴曲《土家摆手舞》创作于1978年,以土家民族本土的“摆手舞”为题材,结合扬琴独特的演奏技法创作而成,表达了土家族人民能歌善舞,勤劳质朴的优秀传统美德。本篇论文主要讲
绝缘栅双极晶体管(IGBT)由于其拥有成熟的结构以及控制技术,是目前电力电子设备所采用的主要功率器件。自上世纪80年代以来,IGBT工艺和性能不断提升,但单模块IGBT的热特性和
大学是科学技术研究,尤其是原始技术发明的发源地,在实现国家创新驱动发展战略中拥有举足轻重的地位。大学的技术发明成果向产业界转移,是国家创新体系的重要组成部分。然而,
薄膜微流控芯片被广泛应用于聚合酶链式反应(PCR)扩增之中,为了避免其在使用时发生变形,通常需要将其与支撑板进行连接。对于现有的聚合物连接技术来说,超声波焊接具有焊接时
山东栖霞牟氏家族,是山左地区的名门望族,自明万历科举兴家以来,从“学而优则仕”到耕读世家,在学术、文学等领域都有一定建树,在社会上颇有声望。关于牟氏家族文化的研究,前
随着社会信息化程度的不断深化使得对于通信网络的吞吐量及、时延及连接数等性能要求越来越高,这也驱动着通信基础设施及用户设备的持续更新,通信技术也日新月异。其中,大规模多输入多输出(Massive MIMO:Multiple Input Multiple Output)系统是第五代(5G)蜂窝通信系统关键技术之一。大规模MIMO可以通过提供大的空间复用和分集增益来提高性能,被认为是未来通信系统提高数据