【摘 要】
:
随着科技的进步和深度学习研究的深入,语音情感识别在生活中的应用逐渐变得广泛。目前的语音情感识别任务大多被看成是简单的分类任务,首先人工提取多种声学特征并构建特征工程,然后通过深度学习的方法训练分类网络进行情感类别的识别。本文旨在探究语音情感中变与不变的信息,基于语音生成模型源-滤波器模型,探究语音情感信息的表达并构建语音情感空间;然后基于情感空间搭建最合适的学习语音情感信息的网络结构;最后利用注意
论文部分内容阅读
随着科技的进步和深度学习研究的深入,语音情感识别在生活中的应用逐渐变得广泛。目前的语音情感识别任务大多被看成是简单的分类任务,首先人工提取多种声学特征并构建特征工程,然后通过深度学习的方法训练分类网络进行情感类别的识别。本文旨在探究语音情感中变与不变的信息,基于语音生成模型源-滤波器模型,探究语音情感信息的表达并构建语音情感空间;然后基于情感空间搭建最合适的学习语音情感信息的网络结构;最后利用注意力机制对模型进行优化,对语音中的关键性部分进行提取并利用。本文的主要研究内容包括以下几个部分:1.研究了基于源-滤波器语音发声模型的语音情感特征在大量的声学特征参数中,从它们的物理意义上出发,筛选合理的表达情感不变性的特征参数,并验证其有效性。通过对比分析,在激励源和声道上尽可能去除情感语音中说话人、内容等信息的干扰,保留语音与语音情感相关信息。最终构建了两大类语音情感空间:语谱图为代表的全局特征情感空间,以及基频、Mel频率倒谱系数及其统计值构成了时间序列情感空间。2.研究了适配于语音情感空间的网络结构基于较优的语音参数构成的语音情感空间基础上,构建适用于挖掘语音情感信息的深度学习网络。本文从网络结构建模的角度出发,根据由语音时序特征构成的情感空间,以及既可以表征话语级、也可表征帧级的作为输入的语谱图情感空间,利用不同的卷积神经网络,最终构建了谱图网络、时间序列网络两大类网络结构。相比之下,以语谱图为输入的组合卷积谱图网络获得了更好的识别率。3.研究了语音情感信息的关键性部分提取语音中不是所有部分都能体现情感信息,而且重要的语音情感信息类型也是多种多样的,如何提取并利用这些关键性部分是研究中的关键点。本文提出一系列从时间上、频域上以及高层空间上提取语音情感关键性的方法,其一是作用于原始的谱图输入,另一是在网络高层空间对局部关键性进行学习并加以利用。通过传统方法、自注意力机制、非随机Dropout以及通道注意力及其结合体的方法,对网络模型进行优化,在基础网络之上提升了系统准确率。其中将作用于原始语谱图输入的自注意力方式与网络高层注意力相结合的方式获得了最佳的效果。
其他文献
伴随我国的经济发展不断进步,在大环境下面对的竞争和淘汰也愈演愈烈,企业想提高自身实力和价值,不断突破自我实现企业的创新和收益的提升,就要提高自身企业的创新能力。创新
视觉目标跟踪技术作为计算机应用的重要分支,一直都是热门的研究方向。目标跟踪技术可以在无人工干预的情况下对视频中的目标持续进行跟踪,在智能监控、航拍导航、军事安全等领域得到广泛应用。随着市场的需求提高,算法的应用场景也越来越复杂。如目标被遮挡;目标消失;目标持续旋转;目标形变较大;长时间目标跟踪等问题都成为跟踪算法需要逾越的障碍。本文以改进实时目标跟踪算法,提高跟踪稳定性为目的。针对传统相关滤波算法
自由基化学与化学反应机理,材料化学,结构化学,生物医学等领域紧密相关。因为含有未成对电子,大多数自由基性质很活泼,寿命非常短。作为最稳定的有机自由基之一,对苯二胺及其
随着网络与信息技术的高速发展,漏洞数量急剧增加,给社会带来了极大的威胁,收集和整理已有漏洞建立统一安全漏洞库变得越来越重要。现有安全漏洞库的漏洞数据来源不同,漏洞数据之间存在异构和冗余,使得漏洞数据质量降低,无法实现对同一漏洞的统一描述和检索;对来源不同的异构漏洞数据进行对比融合处理时,受影响软件字段的相似性还未进行相关的分析研究。为解决目前工作的诸多不足,本文设计并实现了漏洞数据相似性测量智能融
对网络系统攻防的研究一直是网络系统安全度量的重点方向之一,当前对网络攻防效用的研究正经历着从定性到定量的过度。博弈论能够很好地描述网络攻击与防御之间的关系,是当前研究网络攻防的主要工具之一。但当前针对网络攻防效用度量的相关研究还存在很多不足,主要包括两个方面:1、攻防效用度量指标体系不够全面,对主动防御措施的相关度量不足。2、没有能够衡量不同网络防御措施下的网络攻防效用量化计算公式。针对上述问题,
大量工程实例和试验研究成果表明大部分钢结构工程事故是由于某一部位的钢材断裂引起的,因此解决复杂钢结构安全问题就必须从建筑钢材细观角度研究工程结构的断裂损伤机理。G
在一些商场、超市和医院等场所,都采用纸质媒介进行信息的传递,这样的传递方式容易造成信息的丢失,同时更换纸质操作不方便,既造成了大量纸张的浪费,也污染了环境。由于物联网的兴起,人们对智能化、可操作、低功率的电子标签有很大的需求,如果将生活中的纸质信息替代成电子显示标签,那么必然需要一款应用程序和一套管理系统将多个电子标签设备信息进行整合以及统一管理,同时可以实时更新标签信息,电子标签的出现将极大的满
人脸表情识别是人脸识别的一个分支,是指通过计算机分析面部表情变化来准确的判断面部表情反应的真实情绪,在人机交互,驾驶员疲劳检测,谎言检测等方面有一定的研究价值。由于人脸不同表情的差异较小,计算机很难准确的区分出各种表情,因此是计算机视觉领域中极具挑战性的热点研究内容。人脸表情的研究可以分为表情图像和表情序列,这两者都可以被认为是类似于模式识别的分类问题,可以被分为表情特征提取和表情分类两部分。本文
随着国家对环境保护和节能减排问题的重视,污水处理节能优化显得越来越重要。研究污水处理节能优化策略,使其在满足出水水质要求下,降低污水处理运行能耗,对完善污水处理厂控制策略,降低污水处理运行成本和提高污水处理效率具有重要的现实意义。本文以活性污泥法污水处理仿真模型(Bechmark Simulated Model NO.1,BSM1)为基础,以降低污水处理能耗为目的,利用改进记忆分子动理论算法对影响
近几年,计算机技术快速发展,如何让人类更加方便、自由地对计算机进行操作,成为了虚拟现实、工业智能化等领域的一个重要且有价值的热点问题。三维空间中人体手部关节信息的准确获取和手姿的准确估计是人机交互的重要基础。因此,如何更加鲁棒、实时、稳定地获取空间中三维手部关节信息,对手部姿态进行估计是该课题研究的主要内容。本文首先阐述双目立体视觉获取深度图像的原理,提出了融合多特征代价计算和超像素代价聚合的立体