卷积神经网络研究及其在基音检测中的应用

来源 :内蒙古大学 | 被引量 : 22次 | 上传用户:moligu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(Convolutional Neural Network, CNN)是一种源于人工神经网络(Neural Network, NN)的深度机器学习方法,近年来在图像识别领域取得了巨大的成功。CNN由于采用局部连接和权值共享,保持了网络的深层结构,同时又大大减少了网络参数,使模型具有良好的泛化能力又较容易训练。NN的训练算法是基于梯度下降的错误信号反向传播(Back Propagate, BP)算法,CNN的训练算法是BP算法的一种变形。本文从梯度下降的数学推导中总结了NN训练过程中的错误信号传播和权重修改策略,用切割小图训练共权神经网络的方式解释了CNN中的卷积过程,并以特殊卷积的方式解释了CNN的子采样过程,最后将NN的错误信号传播和权重修改策略移植到CNN的训练中。我们将推导出的CNN训练方法用C++编码实现,用CNN应用最早最典型的手写数字识别问题验证被编码的推导过程,得到了正确的效果。语音是人类生产生活中使用最为广泛的一种交流媒介,随着信息技术及移动互联网的发展与普及,语音被广泛用于智能人机交互领域。基音频率是语音信号处理技术中一个非常重要的语音参数。现实生活中,人们往往是在有噪声环境下进行语音交流,常用的基音提取方法在低信噪比环境下效果很差。本文深入分析了神经网络和卷积神经网络,并将其和传统基音检测方法结合,得到CNN_ACF_DP基音检测方法。该方法用ACF对语音文件算出一组基音判决信息,再用CNN算出一组基音判决信息,然后融合两组基音判决信息,最后在融合信息上使用基于语音短时平稳性的动态规划(Dynamic Programming,DP)求出基音序列。我们将CNN_ACF_DP方法与近年国际权威期刊上的PEFAC、Jin方法用相同的数据进行了对比实验。实验结果表明,我们的方法明显优于Jin方法,在某些数据上取得了比PEFAC更优的结果,总体性能与PEFAC方法相近。本文的方法在浊音识别错误率(VDE)和基音识别率(DR)两个指标上都明显优于Jin方法。在随机说话人随机噪声环境下VDE和DR指标略低于PEFAC, DR比PEFAC低1.34%,VDE比PEFAC高2.3%,但是本文方法对训练本文模型所使用的说话人的语音的VDE和DR两个指标都优于PEFAC, DR比PEFAC高0.8%,VDE比PEAFC低9.2%。
其他文献
近年来,神经网络集成技术已成为机器学习领域研究的热点之一,它可以获得比单个神经网络更好的泛化能力和稳定性,其中的选择性集成技术由于其在推广性和组合性方面的优势得到
传统的垃圾邮件过滤技术利用邮件过滤器独立工作,所能获得的垃圾邮件信息较少,效率较低。分布式垃圾邮件过滤技术通过网络交换邮件信息来更加准确地识别垃圾邮件,能够很好地利用
软件缺陷是软件开发过程中的产物,也是攻击者发起系统攻击的切入点。攻击模式是从攻击者的角度研究软件缺陷的最好方式。在信息安全领域,软件缺陷与攻击模式的种类复杂、数量
随着网络技术和图像处理技术的快速发展,图像数据逐渐成为人们获取信息的重要来源,但这同时也带来了图像信息安全隐患问题。由于图像数据具有编码结构特殊、数据量大、实时性要
时空统计分析方法是处理大量数据、揭示事物内部规律的有力工具。海洋大气环境是一个典型的多维动态变化环境,由于时间维和高度(或深度)维的引入,数据量急剧增加。多变量大样
进入新世纪以来,随着信息技术尤其是无线通信技术的发展,一种具有独特网络特性的网络——机会网络走入了人们的视野。这是随着无线网络应用的逐步扩大到各个领域中,人们发现
网格是新一代的互联网,是一种新的信息基础设施。它将引发继传统因特网、WEB之后的第三次信息技术革命。将网格技术应用于铁路货物运输系统属全国首例。建立铁路网格平台,可
互联网的发展和广泛应用带来了网络安全问题,从而促进了入侵检测技术的发展。如今,入侵检测系统取得了长足的进步并获得了广泛应用,但仍存在一些问题。本文的研究内容是入侵
本文研究的传媒业务支撑系统(MBSS,Media Business Support System)是利用互联网为载体,在网上发行、传播的应用系统。该系统不仅为广大客户提供方便、快捷、丰富的商业信息,
随着信息技术的发展和网络带宽的提升,视频数据量成爆炸式增长。图像特征提取近年来成为图像研究的热点,在此基础上的视频中的文字是视频语义理解的重要信息来源。由于视频是