【摘 要】
:
机器翻译,自动语音识别等领域已经被研究了半个多世纪。这些系统要实现功能是在人与机器,甚至在机器与机器之间能够像人与人一样自然地进行互动。传统的语音识别系统只对说话人的讲话内容进行语音到文字的转换,而不考虑说话人的状态、情绪等特征。语音情感识别正是研究说话人的情感状态。但是相比于语音识别等传统任务,语音情感识别任务缺少大规模的情感语音数据库,而且很多种语言没有情感语音数据库。因此,通过传统深度学习的
论文部分内容阅读
机器翻译,自动语音识别等领域已经被研究了半个多世纪。这些系统要实现功能是在人与机器,甚至在机器与机器之间能够像人与人一样自然地进行互动。传统的语音识别系统只对说话人的讲话内容进行语音到文字的转换,而不考虑说话人的状态、情绪等特征。语音情感识别正是研究说话人的情感状态。但是相比于语音识别等传统任务,语音情感识别任务缺少大规模的情感语音数据库,而且很多种语言没有情感语音数据库。因此,通过传统深度学习的方法进行语音情感识别效果不佳。针对上述问题,本文从数据库建立、特征空间变换及模型建立方面进行研究,主要做了以下工作:1.针对国内少数民族语言语音情感数据库空白的问题,本课题设计了相关实验场景并建立了维吾尔语语音情感数据库。母语为维吾尔语的20名表演者(10名女性和10名男性)模拟6种情绪,总共收集了1200个语音情感样本。表演人员在录制过程中被情感场景句子诱发对应的情感,从而逼近真实的情感语音。基于上述维吾尔语语音情感数据库分析了各情感语音的声学特征,以及观察声学特征对语音情感识别的区分能力。2.情感特征空间的学习是语音情感领域最重要的一个研究方向,为了在语音情感识别中获得高效、紧凑的低维特征,本文提出了一种新的基于不确定线性判别分析的特征约简方法。用与传统LDA相同的原则,在最大判别方向的估计中引入带噪声或失真输入数据的不确定性。在维吾尔语语音情感识别任务上验证了不确定性判别分析的有效性。获得了比其他常用降维技术更好的结果。实验结果表明,采用适当的不确定性估计算法时,在维吾尔语音情感识别任务上,不确定性线性判别分析(ULDA)算法优于传统LDA降维算法。另外,本文又提出了一种原子表示模型的分类方法实现维吾尔语语音情感识别。基于表示模型的分类算法,如稀疏表示方法,近年来在模式识别领域引起人们的极大兴趣,而且获得了较好的效果。有效的表示情感特征对语音情感识别效果影响较大。从维吾尔语语音中提取情感特征,用原子表示模型对这些提取的情感特征空间进行建模,在构建好的情感空间模型中选出最逼近的情感类别,从而达到情感识别的目的。本文所提出的方法实验结果表明,该方法优于传统方法,在维吾尔语情感语音库上的识别率达到64.17%。3.目前的深度学习方法在使用大量的训练数据时可以取得很好的效果,但是语音情感语料库训练实例的不足使得常用的深度学习方法很难达到令人满意的结果。因此,本文提出了一种孪生神经网络框架,该网络通过成对训练,可以在有限的数据下训练并取得较好的效果,缓解样本不足带来的影响,并提供足够的迭代次数。在孪生网络的框架中,我们设计了两个基于注意力机制的长短期记忆网络,对称的两个网络互相分享权重,并且我们给这些网络按循序地输入帧级特征,而不是整个语音静态的统计特征,以保留原始语音中的时序信息。结果表明,与传统的深度学习方法相比,该方法在语音情感识别结果上有了显著的提高。另外,为了有效解决退化问题,本文提出了一种基于注意力的密集LSTM语音情感识别方法。在LSTM网络中引入基于注意力的密集连接,构造了能够处理语音等时间序列的LSTM网络。即在每层的跳转连接中加入权重系数,以区分层间情感信息的差异,避免底层冗余信息对上层有效信息的干扰。实验结果表明,该方法在e NTERFACE和IEMOCAP语料库上的识别性能分别提高了12%和7%。4.针对现有情感计算算法中存在情感跟踪延迟及忽视情感状态连续性的问题,本文提出了一种结合数据场情感空间和混合蛙跳算法的连续语音情感变化趋势检测技术。首先构建数据场情感空间,利用情感特征量模拟数据场粒子,用势能函数描述粒子之间的相互作用,然后运用混合蛙跳算法技术,用青蛙个体来模拟情感状态变化过程中的情感特征量,得到情感变化的趋势。通过对变化趋势的分析,可以达到情感预测的目的。经实验证明,该算法性能比现有算法有较大的改进。
其他文献
分布异构集群下的MapReduce作业(独立MapReduce作业或MapReduce工作流)调度的主要问题是任务与资源间的合理匹配。实际云环境中资源的有限性、MapReduce作业处理数据的分布性以及不同类型MapReduce作业资源请求量的异构性,为MapReduce作业或MapReduce工作流调度过程中满足截止期、数据本地化、资源利用率等带来极大挑战。本文围绕MapReduce作业调度,分
纳米尺度下金属材料的热学性能和稳定性是微/纳机电系统设计中需要重点考虑的问题,它关系着器件的性能指标、可靠性以及使用寿命。纳米金属在力、电、热等多方面都表现出了不同于其宏观块体材料的新异特性。原位透射电子显微技术因具有原子级分辨能力并可原位搭载各种外场,现已成为研究纳米金属材料新异物性的首要方法。纳米金属的热学行为和稳定性是微纳器件领域的一个重要课题,本文基于原位透射电子显微技术针对纳米金属的热力
视频目标跟踪是计算机视觉领域研究的热点,在智能视频监控、医学图像诊断、智能人机交互和虚拟现实等领域均有广泛的应用。随着国内外的研究机构不断地对目标跟踪技术投入了大量的人力和财力,该技术取得了长足的发展。然而,面对光照变化、背景复杂、尺度变化和遮挡等复杂场景,目标跟踪算法仍有很多理论与技术问题亟待解决。针对视频目标跟踪过程中存在的问题,本文在传统目标跟踪算法的基础上,围绕算法的运动模型、搜索方案和表
流线型钢箱梁因自重轻、承载力高以及整体性强等优点,已成为大跨桥梁主梁的主要形式之一。然而,在长期车载及风载等持续作用下,大跨钢桥钢箱梁不可避免地会出现不同形式的疲劳病害,当疲劳病害积累到一定程度,其结构安全性往往会受到显著影响,需进行加固修复。相比于更换原材料、焊接修复等传统加固措施,纤维增强复合材料(Fiber Reinforced Polymer,简称FRP)因轻质高强、便于施工、耐久性优异等
磁动力学过程的研究对基础物理的发展和自旋电子学器件性能的提高都有着重要意义。随着磁性材料结构和有效场分布的变化,磁矩的集体进动表现出多种多样的模式。这些丰富的磁动力学过程反应了磁性材料的磁动力学性质,并可通过多种手段进行调控。本论文系统研究了坡莫合金(permalloy,Py)铁磁连续薄膜及微纳米结构中的磁矩进动的各类模式,以及Nd基非磁材料-坡莫合金磁性异质结和磁性多层膜中磁动力学过程,主要的研
自石墨烯获得诺贝尔奖以来,二维材料在能源、电子器件和生物传感等领域得到了广泛地研究。二维材料具有独特的物理化学性质、光学和电学性质,特别是在生物分析领域越来越受到科学家的关注。生物传感器的构建一方面需要寻找能展现更高性能的新材料,另一方面需要通过功能化进一步优化现有材料的性能,使材料充分发挥其优势,使得构建的传感器展现出更优异的性能。因此,为进一步提高生物传感器中的灵敏度,准确度,选择性和便携性等
新兴无线应用和业务不断涌现,高速无线接入需求迅猛增长,拥挤的微波频段已无法承载未来网络的海量高速宽带数据。毫米波频段拥有丰富的频谱资源,支持宽带信号传输,同时天线单元物理尺寸小,便于集成大规模天线阵列提供高增益方向性波束。毫米波通信具有巨大潜力,是未来无线通信系统的关键技术之一。由于毫米波信号传输特性与硬件实现限制,传统微波通信系统中的技术难以直接应用。鉴于此,本文对毫米波通信系统中的关键问题进行
超材料是由亚波长单元以周期或非周期形式排列而成的人工结构。通过合理设计单元结构可获得自然界材料所不具备的等效参数(例如声学中的负质量密度ρ和负弹性模量B、电磁学中的负介电常数ε和负磁导率μ),从而为声波和电磁波调控提供了新的方式与可能性。虽然声波和电磁波在本质上有着极大差异,但相似的波动性使得声学超材料和电磁超材料在设计上有很多共通之处。本文分别对超材料在声波和电磁波调控中的物理特性展开研究,主要
移动通信发展至今,已渗透到人类社会的方方面面。移动社交网络、移动多媒体等业务的兴起对数据传输速率的提升、应用类型的多样化提出更高要求。为满足客户日益增长的移动通信需求,大规模多输入多输出(MIMO,Multiple Input Multiple Output)技术应运而生。通过在基站端配置大量天线,大规模MIMO可以充分挖掘空间自由度,增强空间分集与复用技术,显著提升频谱效率。大规模MIMO技术虽