基于卷积神经网络的鲁棒性基音检测方法研究

来源 :内蒙古大学 | 被引量 : 3次 | 上传用户:coldbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是语言符号系统中信息的载体,是日常生活中应用最普遍的交流媒介。在语音信号中,基音是一个关键的特征,且发挥不可替代的作用,已广泛应用于语音合成、语音识别等领域。精确而高效地提取语音基音直接影响着语音识别的准确率、语音合成的自然度以及语音分离的清晰度等。目前,在纯净语音环境中提取语音基音已经取得了不错的效果,然而,在噪声环境下,由于谐波结构被严重破坏,检测噪声环境中语音的基音仍然是一项难度较大的工作。本文提出使用卷积神经网络(Convolutional Neural Network, CNN)来完成这项工作。CNN具有位移不变性,通过卷积核的移动,能够更好地刻画语谱中的谐波结构。在具体的实现中,本文使用CNN来选取候选基音,然后考虑到语音信号的连续性,再用动态规划(Dynamic Programing, DP)方法进行基音追踪,生成连续的基音轮廓。在相同的数据集上用不同的方法进行对比实验。实验结果表明,与其它方法相比,本文的方法具有明显的性能优势,能够得到较高的基音检测率(Detection Rate, DR)和较低的错误决策率(Voice Decision Error, VDE):与深度神经网络(Deep Neutral Network, DNN)、非线性幅度压缩法(以下简称’PEFAC’)和Jin and Wang(以下简称‘Jin’)相比,本文提出的方法,DR平均分别提升了5.58%、5.75%和16.41%;VDE则分别下降了1.91%、4.25%和10.04%,该方法对新的说话人和噪声有很好的泛化性能,具有更好的鲁棒性。并且随着测试集与训练集的相似性逐渐变小,我们所提出方法的优势也越来越明显。
其他文献
在数字近景摄影测量中,借助于特制的人工靶标,可快速便捷地完成同名点匹配、三维立体重建和相机定姿定位等摄影测量任务。然而,随着复杂环境和缺乏纹理区域的工程应用增多,现有测
学位
随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越不能满足人们的需要,以汉语内涵语义分析作为着眼
切割下料问题广泛存在于国民经济生产的各大行业中,例如机械制造业、服装加工业、家具制造业、木材加工业以及皮革制品制造业等。随着信息化产业和计算机技术的快速发展,先进
对于金融信息服务而言,用户希望能够全面掌握一个公司或个股的重大事件以及事件的前因后果。金融门户网站存在着覆盖面不广和众多公司的相关新闻混杂在一起的缺点,与此同时,
词语是自然语言处理的最小单位,词语相似度研究在自然语言处理的各个领域占有非常重要的地位,同时作为人工智能领域中一项重要应用,并被广泛应用于信息检索、词义消歧、机器翻译
相关反馈技术是基于内容的图像检索领域中,关系到系统检索效率的一项关键技术,本文主要研究工作放在基于SVM的相关反馈技术和个性化检索单元上,这里需要指出的是,本文的个性
随着计算机图形学的迅速发展,三维动画已经应用到人们生活的各个领域,尤其是影视作品、游戏娱乐等行业。动画技术的广泛应用使得一般三维动画效果难以打动日益挑剔的观众,群
网格是构建在互联网之上的一组新兴技术,它的出现掀起了继传统互联网、万维网(WEB)之后的第三次技术浪潮。网格是一个集成的计算与资源环境,可以充分吸纳分布在不同地理位置
随着Internet服务的规模不断扩大、复杂性不断增大,保证服务无故障高性能的运行面临着巨大的挑战。Internet服务的多层次体系结构决定了它将受到不同层次故障的影响,其中,非f