基于三层模型的语音情感识别

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:l541306072
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常人际交往中,情感一直担任着极为重要的角色。现如今,计算机技术发展到相对成熟的阶段,人工智能的应用使得人们可以与机器进行交互。因此,让机器拥有“情感”或者能理解人类的情感非常重要,也自然成为了如今的一个热门话题。人类经常表达的情感有生气、害怕、高兴、中性、悲伤、惊喜等,而人类表达这些情感时往往涉及很多方面,例如面部表情、发出的声音、肢体语言等。语音信号(人的声音)因为其固有的优势成为情感计算的良好来源,于是便有了语音情感识别(SER)技术的兴起。同样研究语音,被人所熟知的语音识别技术(ASR),几十年来仍旧是仅仅做到了语音到文字的转换,完全忽略了语音中包含的情感信息。因此,语音情感识别达到成熟时必然会对语音识别技术的进步作出巨大的贡献。语音情感识别系统(SER)主要包含以下三个部分:首先是最开始的对语音数据进行预处理,然后进行语音中各种情感特征的提取,最后利用这些提出来的特征和情感标签进行情感分类器的训练。由于人类在说话过程中会受到自身身体因素和外部环境条件的影响,因此情绪会具有多样性和可变性,可以说语音情感识别的任务困难重重,在现阶段的人工智能水平下非常具有挑战性。研究人员从开始传统特征如MFCC到后来利用神经网络进行深层情感特征提取,已经在识别准确率上拥有了一定的成果。本论文在语音特征提取上不仅考虑传统特征如梅尔倒谱系数(MFCC),还从中提取一些有用特征如短时能量、基音频率、过零率等进行多特征融合。基于深度神经网络(DNN)技术的发展,本论文提出了一种三层模型的语音情感识别方法,并研究该模型在不同语言的语音下的鲁棒性。该模型不仅能挖掘语音信号的深层情感信息,而且可以从容易混淆的情感中提取出更多鲜明的情感特征。该模型首先通过粗分类得到混淆矩阵,从而计算情感之间的混淆程度,设定阈值来完成决策树结构的构建,然后针对不同的情感组(决策树的叶子结点)训练不同的DNN,来提取用于训练决策树中每个XGBOOST的瓶颈特征。最后,基于本文提出三层模型进行了多个语音情感分类实验以及一些对比实验。该模型首先选取的数据集是中科院情感数据库(CASIA)进行评估。最后,由本文实验结果表明,基于该方法的平均情感识别率分别比浅层特征+XGBOOST和瓶颈特征+XGBOOST分类方法高4.1%和1.6%。实践证明,该方法可以有效地减少情感之间的混淆,从而提高语音情感识别率。本文同时选取了德语数据集(EMO_DB)和英语数据集(RAVDESS)来进行多语言模型创建,发现不同语言的语音对同种情感有相似的特征。本文提取的所有浅层特征能有效的构建多语言语音情感识别模型,对训练时涉及的语言能有一个良好的识别效果。
其他文献
随着智能电网系统的普及,以及电能存储的高成本,准确预测指定区域的电力负荷对电网管理和供电决策是非常重要的。因此,学者尝试了不同的方法,希望提高电力负荷预测的准确性。然而,电力负荷条件均值的预测会受到各个方面的影响,有着诸多不确定性,例如天气条件、日历效应、经济指标等因素,随着信息传播的加快,一些新闻、政策也会在一定程度上影响实时电力负荷。在这样的情况下,以条件均值的预测结果作为参考,会带来供电负荷
学位
现如今,网络售票已经成为了我国票务业的主要出售渠道:2019年春运火车票网络售票日均超千万张,其中12306网络售票占比83.9%;电影票在线售票率超过85%,热门演出票在线售票率更是接近100%。据中国互联网信息中心数据,截至2019年6月,我国网络购物用户规模已达6.39亿,网络购物已成为中国人消费的主要途径之一,也是国民经济的重要来源之一。但网络购物在带来便捷的同时,也出现了一些问题。对于通
学位
市场竞争随着近年来国际贸易的深入而日趋白日化,行业之间的边界越来越模糊,市场上的竞争也因为迭代速度的加快而变得愈来愈激烈。如何在市场中获取并维持企业的持续竞争优势是每个企业都在思考的课题。目前管理类书籍大多都把主要的内容关注在战略管理理论方面,都是聚焦在如何通过内外部环境分析,上下游价值链的梳理来选择公司的战略方案,制定公司的战略目标。战略执行方面的研究和讨论通常都是被归类在战略管理和战略学习分类
学位
2019年,世界经济进入了低迷期,贸易摩擦和单边主义加剧,世界经济增长停滞,各国经济增长情况也不容乐观,甚至出现了负增长。当前由于某些国家挑起贸易摩擦导致全球经济波动风险不断增加。投资市场的潜在风险进一步增加,很多国家进入负利率时代,“负利率正在撕裂整个世界”1。“负利率下,央行很难保证货币政策的有效性,给经济环境蒙上了一团云雾,权益市场波动性和潜在风险大大增加”2。“当前环境下,贵金属的保值和分
学位
现如今,随着大数据的蓬勃发展,越来越庞大和复杂的数据成为人们不得不面对的问题,其中一个显著的问题就是数据的稀疏性。例如在推荐系统领域,数据主要包括用户和商品(包括其他物品,如视频、音乐、网页等等),它们的数目动辄数以百万千万计,而且两个用户之间选择的重叠往往非常少,若将一个用户选择一个商品记为1,没有选择则记为0,那么最终产生的数据集将是非常庞大而又稀疏的。还有在一些传统统计分析领域,当数据中的分
学位
中美两国经济相互依存。本文以中美两国黄金市场为出发点探究宏观经济及贸易政策不确定性对两国黄金市场波动率的影响。本文选取上海期货交易所的黄金期货连续合约(代码AU.SHF,以下简称AU.SHF黄金期货)以及纽约商品交易所的黄金期货连续合约(代码GC.CMX,以下简称GC.CMX黄金期货)交易数据以及中美两国重要宏观经济数据进行波动率建模分析。本文的研究思路为通过建立GARCH-MIDAS模型对比分析
学位
当前无论是从机器中或是从网络上采集到的原始录音数据仅仅是一种非结构化的二进制数据流,经过语音识别技术得到的文本只包含语音数据中的内容信息而缺少了每段内容所属说话人的身份信息,这制约了语义理解、角色分析、语音归档等下游任务的进行。而说话人日志(speaker diarization)就是为了配合完成其它语音技术而衍生出来的一种技术,该技术将原始录音分割、聚类成几个类别,其中每个类别包含了单个说话人的
学位
自1993年中国汇率并轨改革以来,人民币汇率制度历经多次改革。2005汇改后人民币汇率迈入参考一篮子货币汇率波动、有管理进行汇率调节时代。本文首先对历年来汇改做简单回顾,采用Frankel开创的交叉汇率回归模型和加入外汇市场压力(EMP)模型拓展交叉汇率模型对人民币汇率演进机制进行静态研究,多重结构模型(BP结构变动检验)可以准确检验出汇率数据结构变动点,从而识别出实际汇率制度结构变化过程。此外,
学位
随着科技水平的不断进步和社会信息化程度的不断加强,人们对创建智慧生活的期许不断提高,用于生物特征验证的相关技术就在这样的大环境下迅速发展起来。当前身份验证技术正日益惠及民众的工作、学习和生活等方面,并且应用领域还在不断地扩张,由此可见在生物识别市场上身份验证的商业价值巨大。在身份识别领域,异质人脸识别因其应用范围广、使用限制少而受到学者和从业者的极大关注。该识别方式是将不同采集方式下获得的人脸图像
学位
房地产业在我国经济发展中占据重要地位,关乎人民生活及社会稳定,一直是政府的重点监管行业。随着经济发展,投资者在房产领域重金投资,一度出现“炒房热”现象,而真正的住房需求难以得到满足,这种住房需求以一线城市尤甚。一线城市以其领先的发展优势不断吸引人口流入,但房产开发面积受限,住房需求更多要靠二手房屋来满足。二手房市场存在严重的信息不对称,这既增加了买卖双方的交易成本,同时也为政府监管带来困难。在此背
学位