基于深层神经网络的口语识别算法优化研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:sssmickey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,对语音识别的研究已经越来越深入,采取的方法也是逐渐多元化。目前大多数语音信号分析利用了语音信号的频谱特征,通过一系列转换提取特征,训练出识别模型。但从另一方面思考,语谱图作为语音信号最直观的表达,不仅包含了频谱信息,还包含了基频、共振峰及其变化趋势,这些趋势组成的纹理可以表征出语音的音调、重音等发音特征信息,经验丰富的语音学专家甚至可以通过一张语谱图估计出其代表的文字含义。基于上述条件,可将语音信号的语谱图作为特征提取的一个输入,利用图像处理领域中较为成熟的特征提取及模型训练方法,对语谱图进行处理,探索语音信号处理和图像处理相结合的新领域。研究了基于脉冲耦合神经网络(PCNN)的发音优劣分类方法,探索将语谱图作为语音识别模型特征的可行性。收集了600个标准度层面的正负样本,将经过短时傅里叶变换生成的孤立词语谱图像作为特征输入,然后进一步地在特征层面和结果层面融合MFCC特征,送入支持向量机分类器进行优劣分类。实验结果表明,当特征含有语谱图时,使用PCNN可获得85%以上的识别准确率,比仅仅使用频谱特征准确率更高;当将图像特征与语音频谱特征相融合时,可获得更好的识别准确率,且基于识别结果投票重估的融合方法要优于基于特征输入的融合方法;以语谱图作为模型特征的突破点是可行的。研究了结合语谱图和卷积神经网络的非特定人发音评价方法。提出了结合宽带语谱图和窄带语谱图进行特征预处理的方法,其中窄带语谱图用于基频和谐波分析以完成端点检测,刨除无效的非语音段;宽带语谱图用于分隔出不同的纹理,以此实现音位级别的分割,创造出以音位为单位的有标签数据,该策略的分割准确率约为88%左右。然后将处理好的二维特征矩阵送入七层卷积神经网络中进行训练。实验表明,卷积神经网络对于音位语谱图的识别精度总体较良好,实际精度与谱图的分割预处理效果成正相关关系,不同的音位由于其本身发音特点不同可达到不同的识别效果,所有音位的总体识别准确率约为83%。
其他文献
转换性使用是美国合理使用中最重要的判断因素,本文首先阐述转换性使用的渊源内涵和变迁,通过案例解释近年司法案例对其过度扩张的问题,总结了美国司法实践和学界对该问题的
电力企业是我国的基础能源企业,关系到人们的日常生活和国家的安定有序。一旦电力企业出现财务危机,不但会严重影响电力企业经济的发展,还会给整个国家的经济体系带来灾难,给人们
<正>西安华钊电子油科技有限公司是专业从事电接触表面的三防、润滑、保护材料研制和销售的高新技术企业。同时代销茬原优吉莱特(上海)贸易有限公司的电镀添加剂。公司主导产
二战后日本进入消费社会,为大众文学的繁荣创造了条件,纯文学的优势地位受到冲击。在文学价值受到质疑的今天,纯文学作家村上春树吸取大众文学的创作元素,并借助人文关怀和历
《企业知识产权管理规范》(GB/T29470-2013)认证可以使外向型企业规避知识产权风险,提升管理水平,使企业知识产权物尽其用并创造经济价值。贯标应该与企业的外向型市场战略相
资产的质量有优质与不良之分,无论对于企业内部的经营战略还是对于企业外部的交易战略都有重要意义。本文以炜赋集团公司为例,谈谈如何改进和优化资产结构,提高资产质态。
作者通过对27名健康自愿受试者用20%十二烷基硫酸钠(SDS)水溶液进行不同封闭时间的HillTop皮肤斑站试验和FINN皮肤斑贴试验,并分别在15min、24h.48h、72h和7d进行观察。结果4hHill
虽然柔道运动属技能类竞技项目,对运动员的体能、技能、智能和心理均有较高要求,但身体的形态结构仍是竞技能力的基础。以61名女子柔道运动员为研究对象,对她们的体型特点进行研究
目的总结核苷(酸)类药物[nucleos(t)ide analogue,NA]长期治疗应答不佳患者的临床特征,便于在耐药检测前或不具备耐药检测条件时对患者的耐药情况进行初步判断,指导治疗。方
武汉地区具有丰富的江河湖水以及地下水和浅层土壤等低温热能资源,其可资利用温差显热能量巨大。可应用水源热泵和地源热泵技术对这些低温潜能加以利用。结合武汉地区的气候