语音情感识别关键技术研究

被引量 : 0次 | 上传用户:sunzhaojian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别是人工智能领域的一个重要分支,是一项通过处理分析语音信号来识别说话人情感状态的技术,在自然人机交互、疾病诊断和监控、疲劳检测、公共安全等领域有着日趋广泛的应用。近年来,随着心理学、生理学、神经科学及计算机技术的发展,语音情感识别技术取得了显著的进步,但是由于情感的复杂性和情感理论基础更新的滞后性,当前的研究水平距离成熟的技术应用有着很大的差距。结合当前语音情感识别研究状况与实际需要,本文分别从特征提取、情感描述模型升级和识别模型构建等不同层面逐一展开语音情感识别研究,并提出了一系列的解决方法,主要研究内容包括:(1)定量地给出了不同情感状态的情感韵律粒度,并提出了两种基于长短时特征融合的语音情感分类方法。本文在自建离散情感语料库的基础之上,首先对包括韵律学特征和声音质量特征在内的语音情感特征在不同情感状态(高兴、愤怒、悲伤、惊奇)上的变化规律进行了定性分析,其次对特征提取时长与情感区分能力之间的关联模式进行了定量分析,并确定了最佳的语音情感特征提取时长作为情感韵律粒度的衡量。基于以上的分析结果,及人类听辨语音时所表现出的连续性和渐进性,本文分别提出了一种同时具有短时反馈机制和长时控制机制的全局控制Elman神经网络模型,和一种基于情感韵律差异建模的情感韵律Elman网络,实现了语音情感分类过程中对长短时声学特征的有效融合。同分别使用短时和长时特征的情形相比,特征融合后的系统识别性能有了不同程度的提升。(2)对传统语音情感识别使用的情感描述模型进行了更新,开展了基于维度情感描述模型的语音情感识别研究。并且考虑到国内在维度语音情感识别研究上的空白,本文建立了并发布了一个完全源于自然语音和自发情感的汉语维度情感语料库MREC,为普通话维度情感识别研究奠定了扎实的数据基础,填补了汉语维度情感语料库的空白。另外还提炼总结了日常生活场景下的维度情感语料库的录制方法、标注方法及其测评方法。(3)提出了基于回归预测主动学习策略的维度语音情感识别方法。针对维度语音情感识别领域中的语料规模大、情感打分难度大、标注工作繁重的问题,本文提出运用主动学习思想来指导维度情感的标注和识别模型的学习。为此,本文设计了包括基于委员会投票、基于最近边界置信度和基于差异性加权置信度在内的三种回归预测主动学习算法,用于对候选语料的信息度进行有效地估计。实验证实,通过运用上述三种主动学习算法,本文有效地实现了对高质量训练语料的选择,并相应地取得了提高模型训练效率和系统情感识别性能等多方面成效。该研究是主动学习思想同维度语音情感识别的首次融合。(4)提出了基于Kullback-Leibler测度的情感顺序预测损失估计方法和基于顺序敏感神经网络的维度语音情感识别方法。考虑到语音样本间的情感变化趋势在判断说话人的意图、观点和态度时所发挥的重要作用,本文提出在维度语音情感识别的建模过程中同时考虑情感数值预测和样本间情感强弱顺序的预测。为此,本文将维度语音情感识别任务建模为一种改进的回归预测模型——顺序敏感的神经网络模型:首先将解决问题的关键转化为,由数值损失和顺序损失两部分组成的预测损失函数的最小化过程,继而使用神经网络学习算法实现预测损失的最小化。其中预测损失中的顺序损失部分是对由预测造成的样本间情感强弱顺序错误程度的定义。本文提出使用概率模型对样本间的情感强弱排序情况进行形式化描述,然后使用Kullback-Leibler概率分布距离对预测造成顺序损失进行量化。该模型在维度语音情感识别的任务中能够表现出优异于目前被广泛使用的支持向量回归预测器的情感强弱顺序预测能力。该研究为人-机交互系统正确判断用户情感变化,从而做出正确的交互决策提供了更加可靠的技术保障。(5)提出了基于分裂矢量量化的分布式语音情感识别模型。分布式语音情感识别技术是语音情感识别得以推广的必要环节,为此本文以“客户端低成本、数据传输低带宽、情感识别高性能”为原则,提出了一种分布于客户端-服务器端的语音情感识别模型:将语音采集、特征提取和压缩模块放置于客户端,将特征解压缩和情感识别模块放置于远程服务器端,使用分裂矢量量化算法实现声学特征的压缩。本文对自然情感语音在该分布式模型下的情感识别性能进行了详细地考察与分析,包括对码本数量、码本尺寸等关键参数的设置对数据传输带宽需求和情感识别性能的影响的分析。结果显示,该方法的应用能够在保证数十倍的压缩比的同时,取得与单机版识别系统相当的情感识别性能。该研究为推广语音情感识别的互联网应用,提供了有效的技术支持。本文研究工作为当今语音情感识别领域面临的若干关键技术问题提出了崭新而切实有效的解决方案,为今后的语音情感识别研究奠定了良好的基础。
其他文献
楼昉《崇古文诀》是一部具有过渡性质的散文理论著作。书中将文学批评与文章学糅合在一起,既继承发展了传统的文学批评思想,又为后世文章评点树立了典范。本文试图要说明的就
图形创意及其自身独特的艺术形式在动画广告中有着不可替代的优势,发挥着举足轻重的作用。本文通过动画广告设计与图形创意的关系研究,总结动画广告设计中几种重要的图形创意
目的探讨OB内置式棉条联合穴位按摩预防危重症监护室(intensive care unit,ICU)大便失禁患者失禁相关性皮炎(incontinence-associated dermatitis,IAD)的效果。方法选择本院I
电频率快速、准确测量是电网及电气设备运行、控制、调节的基础.基于电气信号的异步采样数据,应用短时傅立叶变换(STFT)估计电气信号频率,选用矩形自卷积窗抑制谐波对测频的影
在21世纪,规范国有企业党风廉政建设,净化企业全员工作作风,必须大力加强国有企业思想政治工作,准确定位企业党支部的功能,发挥党支部的作用,推进企业廉政文化建设,做好党员
选取2014年3月∽2016年3月我院收治的93例肺癌患者。按照病房号单双将其分为常规组46例和研究组47例。常规组患者行常规护理干预,研究组患者在常规护理的基础上行早期肺康复
词语由于经常与含有特定语义特征的语言单位高频共现而染上某种语义色彩,我们称之为语义韵,它揭示了词语在搭配使用时所具有的语义选择趋向。本文以《现代汉语词典》作为普通
本课题选取节日话题作为切点对湖南衡山方言进行语篇典藏研究,同时运用系统功能语言学衔接理论分析典藏语篇的衔接机制。不仅能展现衡山方言在自然口语交际语境下的真实面貌,
近年来随着房地产价格的不断上扬,我国政府出台了相关政策来调控房价,特别是推出了许多公共住房的政策和立法,试图用公共住房的建设和销售来降低商品房价格。本文从我国的公
城市化与资源环境、产业结构协调发展是地区社会经济发展的重要环节。资源环境的合理利用、可持续发展,产业结构的合理发展能够带动城市化水平的上升,同时发展的城市化水平也