论文部分内容阅读
卷积神经网络(Convolutional Neural Network, CNN)是一种源于人工神经网络(Neural Network, NN)的深度机器学习方法,近年来在图像识别领域取得了巨大的成功。CNN由于采用局部连接和权值共享,保持了网络的深层结构,同时又大大减少了网络参数,使模型具有良好的泛化能力又较容易训练。NN的训练算法是基于梯度下降的错误信号反向传播(Back Propagate, BP)算法,CNN的训练算法是BP算法的一种变形。本文从梯度下降的数学推导中总结了NN训练过程中的错误信号传播和权重修改策略,用切割小图训练共权神经网络的方式解释了CNN中的卷积过程,并以特殊卷积的方式解释了CNN的子采样过程,最后将NN的错误信号传播和权重修改策略移植到CNN的训练中。我们将推导出的CNN训练方法用C++编码实现,用CNN应用最早最典型的手写数字识别问题验证被编码的推导过程,得到了正确的效果。语音是人类生产生活中使用最为广泛的一种交流媒介,随着信息技术及移动互联网的发展与普及,语音被广泛用于智能人机交互领域。基音频率是语音信号处理技术中一个非常重要的语音参数。现实生活中,人们往往是在有噪声环境下进行语音交流,常用的基音提取方法在低信噪比环境下效果很差。本文深入分析了神经网络和卷积神经网络,并将其和传统基音检测方法结合,得到CNN_ACF_DP基音检测方法。该方法用ACF对语音文件算出一组基音判决信息,再用CNN算出一组基音判决信息,然后融合两组基音判决信息,最后在融合信息上使用基于语音短时平稳性的动态规划(Dynamic Programming,DP)求出基音序列。我们将CNN_ACF_DP方法与近年国际权威期刊上的PEFAC、Jin方法用相同的数据进行了对比实验。实验结果表明,我们的方法明显优于Jin方法,在某些数据上取得了比PEFAC更优的结果,总体性能与PEFAC方法相近。本文的方法在浊音识别错误率(VDE)和基音识别率(DR)两个指标上都明显优于Jin方法。在随机说话人随机噪声环境下VDE和DR指标略低于PEFAC, DR比PEFAC低1.34%,VDE比PEFAC高2.3%,但是本文方法对训练本文模型所使用的说话人的语音的VDE和DR两个指标都优于PEFAC, DR比PEFAC高0.8%,VDE比PEAFC低9.2%。