基于深度学习的配音情感识别的应用研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:shirleyzuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着影视动漫、有声书广播剧等产业的飞速发展,配音逐渐进入大众的视野,越来越多的配音爱好者希望利用业余时间学习配音,不仅可以增加一份收入,还能圆自己的“配音梦”。然而配音看似门槛低,实则需要专业的学习加上系统的训练与实践,其中配音情感的表达是衡量配音质量的关键因素之一。而网上出现的各类线上配音速成培训班教学质量良莠不齐,难以对学生的配音训练实践提供实时指导,学生也无法准确的评估自己配音的情感表达效果,学习效果较差,最终的学成率也比较低。基于此,本文对语音情感识别技术展开深入研究,旨在通过改进特征提取方法和情感分类模型以得到高效、泛化能力突出的语音情感识别方案,并将其应用于配音情感评价系统中,为配音学习人群提供在线配音训练实践平台,辅助其检测自己配音录音的情感表达效果,降低配音学习的门槛,提高配音学习的效率和专业水平。本文主要的研究内容如下:1)在语音情感特征提取方面,针对常规方式提取的梅尔频率倒谱系数情感信息不足导致识别率低的问题,本文除提取MFCC的一阶、二阶差分构造成3D Log-Mel特征外,还提取语音在中、高频段的梅尔频谱系数Mid-MFCC和IMFCC,将这两种特征与3D Log-Mel通过基于向量外积的二阶池化方法进行融合,得到改进融合的MFCC特征集输入语音情感分类模型中进行实验,在CASIA和IEMOCAP语料库上验证表明,改进融合的MFCC特征集相较单一或任意两种MFCC融合的特征集识别效果都更好。2)对于1)中提取的改进融合的MFCC特征集,单一的特征损失了语音的时序因素等情感信息,因此引入全局特征集与1)中特征集融合以补充情感信息,并在3D CNN-LSTM模型上进行特征级和决策级融合实验,证明了融合两种特征集的情感识别率都高于单一特征集的识别结果;在语音情感识别模型方面,针对3D CNN-LSTM模型无法有效获取融合特征较大数据量中的情感信息的问题,本文依次引入注意力机制和Highway网络优化的Bi-LSTM,得到基于注意力机制的3D CNN+HBi-LSTM模型,在特征级和决策级两种特征融合方法上的对比实验,验证了改进模型的优越性。3)设计了一种在线配音情感评价系统,将实验得到的最优语音情感识别方案应用于配音情感系统中,以搭建前后端分离的配音情感评价系统。系统支持在线配音输入和配音文件上传,后台会对上传的配音数据进行情感识别,再将得到的识别结果结合相应语句的文本情感,以给出综合评价反馈。该系统能够为不同受众提供多样化配音情感检测与评价服务,证明了将语音情感识别应用于配音情感评价系统中的实际应用研究价值。
其他文献
缺陷检测是工业上非常重要的一个应用,与此同时,卷积神经网络在特征提取和定位上取得巨大成就。因此深度学习在目标检测领域取得了长足的发展,使得瓷砖表面缺陷检测成为一个有潜力的研究方向。但是瓷砖瑕疵检测依然受到检测目标中小目标较多,形状多变且不规则,特征不明显等因素的困扰,企业在生产制造的过程中依然无法避免的生产出具有各类瑕疵的瓷砖。如何解决以上种种问题,提高小目标瑕疵检测的精度是亟需解决的难题。本文主
学位
人脸表情作为一种表达情绪的载体,在日常人际交往中起到了重要作用。现如今,人脸表情识别技术广泛应用于人机交互、智慧驾驶、医学等领域。随着深度学习技术的发展,基于卷积神经网络的方法正成为主流的表情识别方法,但依然存在表情识别准确率不高以及不同个体之间的脸部特征和表情差异大等问题。针对上述问题,本文进行了人脸表情识别研究,主要研究工作如下:(1)针对VGG16深度卷积神经网络存在表情特征提取不够充分的问
学位
帕金森病作为一种慢性的神经退行性疾病,其导致大脑中的黑质和纹状体发生病变,由此产生的相关症状严重影响了患者及其家庭成员的正常生活。鉴于帕金森病当前仍无法被治愈。因此,精确、可靠的早期诊断方法对于减缓帕金森病的进展、改善患者健康状况发挥着至关重要的作用。面部表情障碍作为帕金森病的早期运动症状之一,使得帕金森病患者与正常人在面部表情表达上存在明显差异。在临床诊断中,由于面部表情障碍评估任务主观性较大,
学位
图像去模糊的研究已经有了诸多进展,深度学习在图像去模糊领域上也颇有建树,但是纵观深度学习的去模糊方法,或是因为模型结构较为简单,导致去模糊的效果难如人意,产生了诸如伪影、丢失边缘纹理等问题;或是因为模型结构过于复杂,导致其适应性较差,难以将其广泛应用于各类场景中。在这一背景下,本文基于经典的深度多尺度卷积神经网络(DMCNN),提出了一个相对轻量级的多尺度去模糊网络。本文所做的主要工作如下:(1)
学位
为将中餐食物图像检测模型部署在移动端设备上,本文提出了一种基于优化YOLOv4的中餐食物图像检测模型,并通过实验证明其有效性。之后,基于所提出的模型,设计并实现了一个中餐食物图像检测系统。本文的主要研究内容及工作如下:1.针对传统目标检测模型占用资源较多,轻量检测模型精度较低等问题,本文首先从轻量化的角度出发改进YOLOv4模型,一方面使用轻量化神经网络Mobile Net V2替换原始YOLOv
学位
随着大数据时代的到来,图像尤其是动物图像已经成为网络数据的重要组成部分。从已有的海量数据中有效地检索出动物图像,对于发现动物和保护动物具有重要的意义。由于科学技术的发展,现如今的图像检索普遍是基于内容的,近些年更是将深度神经网络与图像检索结合以获得更准确的检索结果。但是基于深度学习的方式获取的图像特征往往维度很高,而利用这种高维度的图像特征进行检索,在实际应用中往往会带来难以接受的时延问题。基于上
学位
<正>众所周知,《黄帝内经》是我国最早的医书之一,里面记载了很多古人的养生之道,今天笔者就带大家来看看古人在寒冷的冬季是如何养生的。《黄帝内经》中关于冬季养生是这样记载的:冬三月,此谓闭藏。水冰地坼,无扰乎阳,早卧晚起,必待日光,使志若伏若匿,若有私意,若已有得,去寒就温,无泄皮肤,使气亟夺,此冬气
期刊
低照度图像因对比度低而不利于人眼观察和机器学习,尽管已经提出了不少图像增强方法来解决此类问题,但现有的算法或多或少存在一定的缺陷。例如基于Retinex模型的低照度图像增强(low-light image enhancement,LLIE)算法不仅对图像的亮度和对比度具有提升效果,而且在彩色图像增强方面具有明显的优势。然而此类算法主要对亮度分量进行估计,其结果并不准确且无法保留图像边缘信息,从而导
学位
随着大量的社会资源被网络化和数字化,数据浸润各行各业,成为重要的生产要素。从繁杂数据中提取价值信息成为助力生产学习的有效手段,数据挖掘的重要性不言而喻。K-medoids聚类算法是数据挖掘中的有效技术,它在继承了K-means算法优点的基础上,对噪声和离群点过于敏感的不足进行改进,得到了研究者的广泛关注。但K-medoids算法依然容易受到初始聚类中心点随机性的影响。为解决这些问题,本研究提出一种
学位
工作流系统主要应用于具有明显流程特征的办公软件,但传统的工作流系统存在着部署维护成本高、升级迭代不够简便、应用不够灵活等弊端。随着云计算技术的快速崛起,SaaS模式以其升级维护成本低、按需租赁、即开即用和扩展能力强等优势逐渐被广泛应用于软件技术领域。针对上述问题,本文结合SaaS模式和微服务框架设计并实现了一个全新的工作流系统,有助于工作流系统的资源共享和灵活应用,提高了产品的技术竞争力。本文的主
学位