基于CTC方法的端到端语音识别系统研究与实现

来源 :天津工业大学 | 被引量 : 5次 | 上传用户:huangpei999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动语音识别技术是使人与人、人与机器更顺畅交流的关键技术。随着新型的社交媒体逐渐普及,互联网上的数据量大量增长,使得传统语音识别系统的识别效率大大降低。传统的语音识别方法,在训练模型的语料时,除了要标注具体的文字,还要标注按照时间顺序对应的音素,需要大量人工成本。因此,使用神经网络技术可以将语音识别变得简单。通过链接时序分类(CTC)计算多个标签序列的概率,而序列是语音样本中所有可能的对应文字的集合。由于是直接拿音频序列来对应文字,连语言模型都可以省去,这样就脱离了标准的语言模型与声学模型,将使语音识别技术与语言无关,只要样本足够多,就可以训练出来。本文基于链接时序分类方法的端到端语音识别系统展开了重点研究,其主要研究内容包括:1)深入研究了LSTM结构,对LSTMP的网络结构进行改进,提出一种Re-dimension方法,让网络可以自主学习历史信息,通过实验验证,使得语音识别准确率得到提升。2)由于Batch Normalization(BN)算法过去都是在DNN模型上使用,故使用BN算法,使其在LSTM网络上发挥作用。3)进行神经网络训练时,采用Target Delay方法实现CTC算法的自适应,从而对单向LSTM模型进行Context的精准建模。综上所述,本课题在收集的数据集上进行实验,实验结果表明采用基于CTC方法进行端到端语音识别能够提高识别效率,随着数据量的不断增大,它会超过传统语音识别系统的性能。
其他文献
招标采购行业自立法以来,经历了快速发展的阶段。招标采购作为一种市场行为有其独特的优势,但在使用阶段也暴露出了许多不足之处。本文针对行政主管部门的管理、招标采购交易平
科尔沁文化是蒙古族独特的地域文化之一,它是以游牧为主、狩猎为辅的草原文化逐渐转变为畜牧和农耕复合型的文化。科尔沁文化是在蒙古诸多氏族部落之间相互融合中形成发展的,
襄阳市襄城区卧龙镇久负盛名,诸葛亮曾躬耕于此。刚过而立之年的邹涛在这里成立了卧龙山药专业合作社,带领大伙种植山药。自己从一个交不起学费初中未毕业便不得不找工作的苦孩
新闻传播是一种制度化的传播行为 ,即新闻传播活动必须在一定的制度规范下进行。但现实的新闻传播活动 ,失范行为时有发生 ,屡禁不止。这主要是因为 :一、规范新闻传播活动的
本文基于对以私有制为主体的美国、英国、德国、法国、日本、新加坡、香港等发达国家和地区 ,在市场经济体制下建设工程质量政府监督管理共性特征的研究 ,分析总结了国外建设
2003年以来,国家多次通过土地政策、税收政策、金融政策等措施以求对我国过热的房地产市场进行调控,虽取得了一定的成效,但房价上涨势头并没有得到有效控制,政策实施效果与预
开放式政府、多渠道的公民参与和行之有效的社会监督 ,是现代民主政治的核心内容。随着网络化时代的到来 ,现代民主政治也被赋予了全新的内容和形式。互联网络的发展不但加速
在分析再制造产生、定义及矿山机械失效分析的基础上,综述了我国矿山机械再制造表面技术的研究现状,重点介绍了堆焊技术、热喷涂技术、电刷镀技术及激光再制造技术,并提出了
目的 研究异甘草素抑制球囊损伤后血管内膜增生及其可能机制。方法 50只SD大鼠随机分为对照组、模型组、异甘草素组(50、100、200 mg/kg)。对照组和模型组每天给予3 ml生理盐水