基于主辅网络特征融合的语音情感识别

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:hudie8707180910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类交流最方便、最快捷的方式,语言中包含的情感信息在交流时发挥着重要作用。让机器像人一样具备说话、思维和情感能力,是人工智能领域一直追求的目标。语音情感识别的研究,将推动这一目标的逐步实现。近年来,深度学习被应用于各个领域,且取得了非常好的效果。深度学习也被成功的应用于语音情感识别领域,主要被用来提取显著的、更为泛化性的情感特征和建立情感分类模型。语音情感识别除了建立合适的数据库外,主要包括特征提取和分类模型两部分,本文主要针对不同类型的特征,用深度学习算法改进分类模型,并提出了一种特征融合算法,主要内容如下:(1)对语音信号分帧提取情感声学特征,分段处理生成段特征,其考虑了语音情感随时间变化的特性。首先使用基于双向长短时记忆单元(Bidirectional Long Short Term Memory,BLSTM)对段特征进行建模,该模型取得了一定的效果。但经研究发现,该模型主要存在以下两个问题:BLSTM只能在时间步上进行局部特征学习,难以学习语音情感信号的全局信息,而语音情感信号是上下文相关的;仅使用BLSTM最后一个时刻的输出编码语音情感信息,会造成一定的信息损失。基于上述问题,本文提出了一种基于SA-BLSTM-ASP(Self Attention-Bidirectional Long Short Term Memory-Attentive Statistics Pooling)网络的语音情感识别模型,通过在BLSTM网络之前加入自注意力机制模块以计算段特征输入序列不同位置之间的相互关系,增强网络学习全局特征的能力;在BLSTM网络输出,使用一种本文提出的结合注意力机制和统计池化的注意力统计池化方法,注意力机制可以关注输入的情感语音信号中更显著的情感片段,统计池化可以关注语音情感信号的长时变化特性,两者结合起来可以增强BLSTM网络提取显著深度段特征的能力,提高语音情感识别系统的性能。(2)对语音信号提取Mel语谱图,其横轴代表时间,纵轴代表频率,针对这一特点,设计一种卷积神经网络结构(Convolutional Neural Network-Global Average Pooling,CNN-GAP)。通过分别在时间轴和频率轴设计较大的卷积核,可以提取Mel语谱图的频率和时间特性,进而提取显著的情感特征,并在最后一层卷积层之后使用全局平均池化代替全连接层,其可以减轻过拟合,提升语音情感识别性能。(3)将SA-BLSTM-ASP网络提取的深度段特征和CNN-GAP网络提取的深度Mel语谱图特征通过主辅网络方式进行特征融合。目前在深度学习中,对不同网络学习出来的特征多以直接拼接的方式进行特征融合,虽然这些方法取得了一定的效果,但将不同类型的特征简单拼接起来作为识别网络的输入,没有考虑不同特征的量纲和维度的差异,以及各类型特征实际物理意义的不同,会对识别结果带来不利影响。针对上述问题,本文提出了通过主辅网络方式将不同类别特征进行融合的方法。首先将段特征输入SA-BLSTM-ASP网络作为主网络,提取深度段特征;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,提取深度Mel语谱图特征;最后,用深度Mel语谱图特征辅助深度段特征,将两者以主辅网络方式进行特征融合。本文在IEMOCAP和e NTERFACE’05数据集上做了充分的实验,验证了提出的基于SA-BLSTM-ASP网络的语音情感识别和基于主辅网络特征融合的语音情感识别两个模型的有效性,和基准模型相比识别结果有了很大的提升。
其他文献
随着科学技术日新月异的发展,网络逐渐为人们日常生活中不可或缺的工具。它是一种功能强大的图结构,可以很自然地捕获海量数据中对象之间的关系。为了获得对象的更多隐含信息,许多图挖掘任务需要联合多个网络的数据进行分析。然而汇聚异构网络中的数据所面临的首要问题是“如何对齐不同平台的对象”。许多下游任务是在对象对齐之后构建的。例如,蛋白质网络的模式匹配、社交网络中的用户身份识别、跨领域个性化推荐和社会链接预测
乳腺癌的发病率逐年上升,严重危害女性的健康和生命。大部分的乳腺癌患者的首发症状是因为发现乳房中存在肿块,因此乳腺肿块是乳腺癌的一个早期信号。计算机辅助诊断可以提供客观的参考意见,减轻医生负担,因此结合深度学习技术对乳腺钼靶图像中肿块进行良恶性分类的研究具有很高的价值。目前许多学者对基于深度学习的乳腺图像分类的研究取得了一定的成绩,但还存在整体分类精度不高的问题。本文针对此问题提出了一种基于集成的卷
随着信息技术不断发展,政协履行职能的方式也迈入了信息化时代。政协现有信息化系统、设施和配套环境已无法适应新形势下政协“政治协商、民主监督和参政议政”三大职能的要求,不能满足全业务、全流程、全地域的覆盖。因此,设计一套智慧政协信息综合系统,就显得十分必要。本文在参阅大量中外文献的基础上,结合本人工作实际,深刻分析了政协信息化国内外研究现状以及目前存在的问题,针对这些问题,利用软件工程专业知识,经过需
建筑行业的本质特点决定了建筑工程全寿命周期过程中会面临资金、工期、环保等不确定因素的风险,建筑工程的经济、技术及环境等方面压力同其他行业相比均较高。如何在建设节约型社会的背景下完成建筑行业向集约型行业的转型,是业内人员正在攻克的难题。如何在建筑工程中提高资金利用率、资源利用率,在保证工程质量的前提下最大程度减少对环境的影响,利用科学管理手段将建设工程成本控制在合理可行的范围内的同时有效降低在工程造
随着自然语言处理技术的不断发展,语义分析已经成为自然语言处理领域的热点及难点问题,作为框架语义分析中关键环节的框架消歧任务也得到了研究者的广泛关注。目前在框架消歧领域,大部分研究都将其看作一个分类问题,通过使用机器学习中常用的分类模型(例如支持向量机、最大熵模型等)对待消歧目标词进行分类,取得了不错的效果。然而现有的分类模型也存在着一些问题,比如模型将目标词看作独立的个体进行分类,不能有效利用目标
近年来,随着互联网的快速普及,应用软件迅速发展,代码克隆的危害不断显现,克隆检测技术对于软件维护、代码漏洞检测及补丁变得非常重要。从代码表征的时间成本、检测类型和部署方式上综合分析现有的检测方法,基于标记的检测方法有一定的优势;但目前基于标记的克隆检测技术大多数只能检测语法克隆,对于语义克隆的检测存在一定的困难。因此,如何使用基于标记表征的代码克隆检测技术实现更全面、准确检测是当前研究领域的一大挑
"迹象论"作为一种新的绘画理论被大众所熟知,以一种全新的视角来看待绘画、书法、艺术设计等领域。在立体剪纸的设计中,大多是以艺术直觉来设计,缺乏基本理论支撑。本文在运用迹象论原理的基础上,分析立体剪纸中"迹"和"象"的关系,以激发立体剪纸的设计思路,创造出更有特色的艺术作品。
前列腺癌是全球男性中第二大最为常见的恶性肿瘤,甚至威胁到男性的生命健康。前列腺特异性抗原(PSA)是由前列腺上皮细胞分泌的一种蛋白质,它已被广泛应用于前列腺相关疾病的筛查、诊断以及监测治疗。因此,发展用于检测前列腺特异性抗原的分析技术具有重要的研究意义。电化学免疫传感器是一种新兴的生物传感器,是将电化学传感技术与免疫分析技术两者相结合,具有特异性强、响应快、成本低等优势。电化学免疫传感器在环境监测
膜性肾病(MN)是成年人肾病综合症的一种常见类型,发病率高达23.4%。肾穿刺活检是膜性肾病诊断的金标准,传统的病理诊断方法需要医生在显微镜下对肾小球基底膜上的免疫复合物沉积程度进行判断,如此庞大的工作量极易导致误诊漏诊。另一方面,经过调查我国的病理医生缺口高达9万人,因此使用计算机自动辅助医生诊断膜性肾病迫在眉睫。然而计算机算法实际应用过程中仍然存在很大的问题,病灶大多位于肾小球内且非常微小。若
农村幼儿园教育、尤其是偏僻落后的农村幼儿园教育,与城市幼儿园教育相比还存在很大差距。要想缩小这些差距,使幼儿教育实现城乡的均衡发展,还需要对农村幼儿园在结构调整、政策支持、更新观念、检查督导等方面进行不懈的努力。