基于混合神经网络的语音情感分类

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:haoaini0413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的迅速发展,语音、文本、生理信号和面部表情的识别与分析越来越受到国内外学者的关注。除了各个领域内的研究,寻找跨领域的相似之处也逐渐成为科研工作者们关注的研究课题。在语音情感识别领域中,由于语音片段的特征多样、维度较高,因此许多研究工作的重点在于特征提取与数据降维的方法创新。但导致很难有一种泛化能力很强的模型适用于所有语音情感识别任务。同时,由于语音情感数据库的构建并不如其他几种信号方便,因此针对语音情感语料的数据增强方法也是一项研究重点。目前的语音情感分析工作中,一个具有高鲁棒性的模型及较大规模的数据集显得尤为重要。本文围绕面向语音情感数据增强方法、基于混合神经网络模型的语音情感分类展开研究。论文主要工作如下:(1)将语音片段按照语义进行词级别划分,划分后的片段将包含更鲜明的时序信息,将其放入时序网络模型中进行特征提取,保留音频原有的时序特征信息。针对语音情感的特点,借鉴并改进现有的图像增强方法,并提出几种可行的语音数据增强方法,避免语音情感识别中的数据稀疏问题。(2)为了验证本文所述数据增强方法的实验效果,本文针对卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)几种不同的神经网络模型进行了对比实验。在此基础上本文提出融合CNN与双向LSTM的混合神经网络模型,旨在同时保留音频片段的时序特征和通过卷积层提取的深层图像特征。本文实验使用了中国科学院自动化研究所提供的CASIA汉语情感语料库、德文语音数据集DMO-DB以及实验室自行收集电视访谈及电影片段的语音数据集,基于本文中提出的数据增强方法与混合神经网络模型进行实验对比,验证了本文提出的模型在精度和鲁棒性等方面相对基线系统均有提升。
其他文献
种族问题一直是美国历史中最有争议的问题。自建国以来,非洲裔美国人和其他少数族裔遭受着种族歧视与不平等关系的待遇。为了实现种族平等、消除不公正现象,美国国内成立了许
舒伯特曾经说过这么一句话:“我真是不了解,为什么长号这么一个如神一般庄严宏伟的乐器却是很少被演奏的。”V·M·勃拉热维奇作为俄罗斯现代长号演奏家,为长号的发展做出了
社会善念是个体在人际互动中充满善意地关注、尊重并保护他人选择的需要和权利的行为,是一种亲社会的行为表现。作为一种社会决策,它时常发生在真实的人际互动中,往往需要个
环境经济调度(EED,Environmental Economic Dispatch)因其能兼顾环境保护和经济效益,而受到了广泛关注。EED问题是一个非线性非凸的多目标优化问题。早期利用约束条件法或者权系数法等技术将多目标转化为单目标问题进行求解的方法很难在多目标间得到权衡。近年来,随着演化算法在解决多目标问题时的优异表现,EED问题的研究逐渐转向利用演化算法获得更优的调度方案。为此,本文设计了两
为了在一次扫描过程中更大范围的覆盖地物信息,许多星载合成孔径雷达(Synthesis Aperture Radar)的采用了宽观测带监测模式(Scanning Synthesis Aperture Radar,ScanSAR)。在ScanSAR工作模式下,雷达沿距离向的扫描宽度超过100km,扫描所对应的视角即入射角范围能达到20°-40°,尽管这种工作模式在业务化海冰解译中获得广泛应用,但是由此
目前,航空货物运输的装卸环节多采用人工操作,易导致人体损伤,工作效率低下等问题。为了提高货物装卸环节的自动化水平,本论文对自动码垛系统中的垛型检测方法展开研究,旨在
合成孔径雷达(Synthetic Aperture Radar,SAR)系统不受天气和光照的影响,具有全天时、全天候的工作能力,并且能够获取丰富的地物信息,因此SAR图像成为遥感图像解译研究领域的重要数据来源。SAR图像变化检测是确定同一区域不同时间获取的多幅SAR图像之间变化信息的一门技术,被广泛地应用于民事和军事领域。然而,SAR系统独特的成像原理会导致图像失真以及产生大量噪声,直接降低变化检
本文利用布拉格光纤光栅(FBG)边缘滤波法原理,探究了一种根据冲击大小不同的两段式光纤光栅冲击能新型实时解调方法。在较小冲击时,根据光纤光栅边缘滤波法的理论基础,研究了
在海事司法实践中,由于船东、承租人、承运人与货方之间关系错综复杂,在货方索赔权时效方面常常出现较大争议,主要问题围绕在货方索赔权诉讼时效的起算、中止中断和延长。英
常德地处湘西北,农业资源得天独厚,但农村经济发展相对落后,农业产业化、现代化程度较低。“农民专业合作社”是以其成员为主要服务对象的农村经济组织,农民专业合作社提高了