基于卷积神经网络模型下的语音处理方法研究

来源 :东北林业大学 | 被引量 : 12次 | 上传用户:qzyss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习(Deep Learning)是一种基于人工神经网络的无监督学习方法,是近年来兴起的一种新型混合机器学习模型,在最近几年,基于深度学习的一些模型被逐渐应用到语音识别领域,并取得一些惊人的成果。另外,深层的网络模型训练需要大量的计算资源,POWER8架构高性能处理平台为大数据时代的海量数据处理提供强力的支撑,尤其是它搭载了强劲浮点运算单元以及多线程并行技术,这非常符合神经网络模型处理语音和图像数据的计算需求。本文基于POWER8架构运算平台,利用深度卷积神经网络模型对语音特征数据进行处理,并通过实验证明该方法可以达到较好的语音识别效果。本文依托POWER8架构高性能处理平台,将卷秋神经网络模型(CNN)替换传统的语音模型,即高斯混合模型。为了将卷积神经网络模型高效的应用于语音模型的建模工作,本文将从以下两个方面对CNN模型进行优化:(1)针对现有CNN模型中池化算泫忽视语音数据的局部相关特性,从而造成对关键语音特征提取效率不高的问题,提出一种基于POWER架构的动态自适应池化算法(DA-Pooling),在CNN模型的池化层中应用DA-Pooling算法替换原有池化算法,该算法提取局部相邻语音特征数据,通过计算Spearman相关系数来确定数据之间的相关程度;再按照一定的权重对不同相关性的语音数据动态分配最优的池化策略,该方法提高了池化层对不同相关性数据的适应能力。(2)为解决现有卷积神经网络在处理语音数据集时泛化能力不高,以及由于传统的Dropout算法所使用的随机隐藏神经元节点策略,造成关键节点权值信息丢失的问题,在CNN模型的全连接层,本文加入基于稀疏性的Dropout策略,该策略在神经元节点的输出阶段增加一种节点稀疏性判定机制,将该节点中的激活函数输出值代入稀疏性判别函数,得到当前节点的稀疏级别(即该节点被隐藏的概率),然后该节点是否被隐藏服从参数为隐藏概率的伯努利分布。该方法可以通过稀疏性减少模型中对结果影响较小节点的比例,从而提高模型的泛化能力。
其他文献
本文通过对K-means聚类分析算法研究,引入遗传算法和小生境技术,针对遗传算法和聚类算法的缺点,提出了一种改进的小生境遗传聚类算法,该算法的改进之处:首先将遗传算法和K-me
随着数据规模的不断增大,竞争的日趋激烈,人们迫切需要从大量数据中挖掘出有用的知识和信息来辅助决策,数据挖掘技术随之应运而生。聚类分析是数据挖掘的一种重要技术,但以往的研
随着社会信息化的不断深入,以软件为核心的应用系统规模和复杂性也越来越大。随之而来的是软件故障率的不断增加,由于软件故障而造成的经济损失也呈现快速上升的趋势。而在软
作为语义Web的核心技术平台,本体已经应用到社交,农业,商业等多个领域。已经有很多开放平台将本体语义开放给众多的普通用户进行编辑,这样做的好处是可以利用公众力量快速的
目前随着森林经营理念的转变,每个群体对于森林管理效益的侧重点不同,并且森林经营管理模式变的日趋复杂,因此森林可持续经营的难度大大增加。由于森林景观的复杂性、遥感传
新一代高效率视频编码标准HEVC (High Efficiency Video Coding)于2010年1月由视频编码联合组JCT-VC首次提出,其核心目的是在H.264/AVC的基础上,将压缩效率提高一倍。为了达
随着时代的发展、技术的进步,网络游戏这一娱乐工具不仅已经深入人们的生活,网络游戏产业也逐步发展成为社会经济增长的重要带动力量。近几年出现的网页游戏以其进入游戏的便捷
组播是一种针对多点传输和多方协作应用的组通信模型,有着高效的数据传输效率,组播技术是下一代瓦联网应用的重要支撑技术。因为组播能够有效地节约带宽、降低网络负载,所以在日
自然界中任何事物都包含着时间属性。所有信息都显式或隐式地具有时态特征。时态数据库就是专门处理时态数据的数据库技术。时态数据中有一类特殊的不确定时态数据,其特征是其
摘要:目前P2P流媒体技术已经成为Internet上大规模流媒体应用最流行的实现方案。然而,尽管P2P在当前的宽带网络上传输流媒体业务时具有比CDN和Multicast更大的优越性,但也存在