论文部分内容阅读
深度学习(Deep Learning)是一种基于人工神经网络的无监督学习方法,是近年来兴起的一种新型混合机器学习模型,在最近几年,基于深度学习的一些模型被逐渐应用到语音识别领域,并取得一些惊人的成果。另外,深层的网络模型训练需要大量的计算资源,POWER8架构高性能处理平台为大数据时代的海量数据处理提供强力的支撑,尤其是它搭载了强劲浮点运算单元以及多线程并行技术,这非常符合神经网络模型处理语音和图像数据的计算需求。本文基于POWER8架构运算平台,利用深度卷积神经网络模型对语音特征数据进行处理,并通过实验证明该方法可以达到较好的语音识别效果。本文依托POWER8架构高性能处理平台,将卷秋神经网络模型(CNN)替换传统的语音模型,即高斯混合模型。为了将卷积神经网络模型高效的应用于语音模型的建模工作,本文将从以下两个方面对CNN模型进行优化:(1)针对现有CNN模型中池化算泫忽视语音数据的局部相关特性,从而造成对关键语音特征提取效率不高的问题,提出一种基于POWER架构的动态自适应池化算法(DA-Pooling),在CNN模型的池化层中应用DA-Pooling算法替换原有池化算法,该算法提取局部相邻语音特征数据,通过计算Spearman相关系数来确定数据之间的相关程度;再按照一定的权重对不同相关性的语音数据动态分配最优的池化策略,该方法提高了池化层对不同相关性数据的适应能力。(2)为解决现有卷积神经网络在处理语音数据集时泛化能力不高,以及由于传统的Dropout算法所使用的随机隐藏神经元节点策略,造成关键节点权值信息丢失的问题,在CNN模型的全连接层,本文加入基于稀疏性的Dropout策略,该策略在神经元节点的输出阶段增加一种节点稀疏性判定机制,将该节点中的激活函数输出值代入稀疏性判别函数,得到当前节点的稀疏级别(即该节点被隐藏的概率),然后该节点是否被隐藏服从参数为隐藏概率的伯努利分布。该方法可以通过稀疏性减少模型中对结果影响较小节点的比例,从而提高模型的泛化能力。