基于深度学习的孤立词语音识别系统设计

来源 :东北电力大学 | 被引量 : 3次 | 上传用户:youxiing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人与人之间的自然对话中,语音对话是被使用最频繁的一种交流方式,因为它是最直接、最方便的一种表达方式。那么在人工智能领域中,语音识别也就成为了人机交互技术里最重要的部分之一,并随着现代科技的发展,各类语音识别软件逐步融入人们的生活,例如智能手机的语音拨号、发短信、查询等,以及汽车上的一些语音控制设备。在如今的互联网时代里,获得大量的语音数据已不成问题,那么如何高效的利用这些未经标注的而且大量的语音数据,就成为了当前语音识别领域的一个研究热点。与此同时,深度学习模型对数据有着强大的建模能力,并能直接对未标注的原始数据进行预处理,这就使其与语音识别的联系越来越紧密。在此背景下,本文以语音识别理论为基础,针对如何将深度学习理论应用于语音识别中这一问题展开研究,最后在此研究上设计了一个孤立词语音识别系统,主要有以下内容。(1)根据语音识别基本原理,在Matlab环境下,编程搭建一个非特定人的孤立词语音识别系统框架,这个系统框架中主要包括语音信号预处理、特征提取、基于HMM声学模型的训练和解码搜索这四个部分。实验中用训练库中语音数据,以提取传统的声学特征(MFCC)为基本特征,训练出基于HMM声学模型的模板库,再结合测试库中的语音数据进行解码搜索,检测此识别系统的识别率,并以此得到了一个合适的声学模型参数,以便下来的试验。(2)以深度学习为基础理论,提出了一种升维式的堆栈式深度自动编码器模型,利用此模型提取新的深层语音特征。并分别从网络的隐含层层数、各层节点数、各层节点的激活函数、有监督和无监督训练方式等多个方面构建深度自动编码器模型及其在语音特征提取中的具体应用。实验证明,新的深层特征比原始MFCC特征,使识别系统在词识别正确率和时间方面都有所提高,这就证明了深度学习模型在特征提取上对提高语音识别正确率的有效性。(3)本文基于以上研究成果,在Labview平台上对上述所研究的基于深度学习的孤立词语音识别系统进行了系统设计,其功能包括录音、播放、训练和识别。其中为了语音系统的识别正确率能达到95%以上,对模板库进行改进,设计为特定人的模板库,即在进行识别时,选择与个人对应的模板库对其语音进行解码搜索以得到识别结果。
其他文献
大比例尺数字测图技术在国土资源管理专业中是一门重要的专业课程,由于学生是第一次接触,概念比较模糊,教学中需要反复实训。实训中学生出现的一些问题主要有人员组织、数据处理、测站或定向输入错误等。这些问题造成测量和绘图无法进行,浪费了时间和精力,影响了学生实训的积极性。本文拟对上述问题加以分析,并提出解决的办法。
风头鹰,中型猛禽,国家二级重点保护动物体长30~40厘米,头部具有羽冠栖息于中、低海拔山地间的阔叶林及开阔地、主要以蛙、蜥蜴、鼠类、昆虫等动物性食物为食
目的:研究不同方法对体外培养肺泡Ⅱ型上皮细胞纯度、活力、产量、存活时间的影响.方法:不同浓度胰蛋白酶消化法和胰蛋白酶加胶原酶消化法消化、分离组织,低密度接种,常规浓
【目的】本试验以研究电子束转靶X射线对红花石蒜、韭兰的辐射诱变效应为目的。【方法】以剂量分别为25、50、75、100 Gy,能量为2 MeV 10 Ma的电子束转靶X射线辐照红花石蒜和
理性选择犯罪学思想是当代西方较有影响的犯罪学思想。它深受后现代主义思想的影响 ,与古典犯罪学联系紧密。“惯常行为理论”和“环境选择理论”是其重要的流派。理性选择犯
改革开放以来,我国经济社会发展取得了举世瞩目的巨大成就,但是我们在能源和环境方面也付出了巨大的代价,经济增长方式粗放,资源利用率低、浪费大、污染重.随着我国未来经济
随着现代中国经济的发展,人们的生活水平不断提高,文化消费逐渐受到重视,更多的人开始关注文化馆的建设与发展。文化馆的功能也从单一化向多元复合化不断升级,以满足人们的文
中小企业由于产出规模小,资本和技术构成较低,受传统体制和旧观念的影响较深,因而在财务管理方面存在管理体制僵化、管理观念陈旧、融资能力较弱、财务控制手段落后等问题.针
2011年12月22—23日,香港凤凰卫视中文台《大地寻梦》摄制组到钦廉林场采访录制有关广西林下经济的发展情况。
当前,全国高校后勤社会化改革正在如火如荼地进行,取得了一定的成果,但在发展中也暴露出许多问题.本文主要针对这些问题,分别探讨食堂、宿舍、公共卫生、水电等基本后勤工作