基于音频和视频的多模态情绪识别

来源 :中国矿业大学 | 被引量 : 1次 | 上传用户:thriving_hehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会对人机交互的需求逐渐增加,情绪识别受到了学术界的广泛关注。情绪识别现已广泛应用于交通检测、教学引导、医学治疗等领域。情绪识别的方式多采用语音信号、视频信号等单模态识别,在一定场景下具有良好的实用性和普遍性。但是当前情绪识别应用场景复杂、数据量暴增,单模态的情绪识别已经无法满足人们的需求。数据量达到一定规模时,只有模态种类越完整,模型的识别效果越好,因此本文将两种单模态情绪识别进行融合,研究多模态情绪识别应用的有效性。针对语音情绪识别研究,对梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征提取进行改进,提出了基于小波包分解的MFCC。小波包分解的MFCC可以通过设置阈值去除噪声、自适应选择频率参数解决高频信息缺少的问题,以此提取更具代表性的语音特征。实验结果证明,在IEMOCAP公开数据集上的加权准确率(Weighted Accuracy,WA)和非加权准确率(Unweighted Accuracy,UA)指标分别为71.93%,69.86%,优于其它几种语音特征方式和主流算法。针对视频情绪识别的研究,为了充分利用特征之间的关联性并提取有效的特征,提出了基于多特征提取的情绪识别算法。首先从图像信息中提取场景特征和表情特征,然后将两种特征分别输入两个GRU网络。为了充分利用两种特征之间的关联性,在门控循环单元(Gate Recurrent Unit,GRU)后引入了注意力机制,将两种特征进行融合,最后由分类器输出情绪识别结果。实验在IEMOCAP数据集上从两部分进行验证,第一部分证明了引入的场景信息可以充分利用模态之间的互补性,提升情绪识别结果;第二部分证明了注意力机制改善了长期距离依赖的问题,降低情绪识别误判率。针对多模态情绪识别的研究,将音频特征向量和视频特征向量融合,提出了基于双向门控循环单元(Bidirection Gate Recurrent Unit,Bi-GRU)和注意力机制的多模态情绪识别算法。Bi-GRU可以从各个方向体现时间序列信息,相比GRU能够获得有价值的信息。实验从两方面验证,一方面通过多模态和单模态的结果对比验证了多模态情绪识别的优越性,平均提高7.82%;一方面通过与其它模型的对比验证模型的有效性。本文包含图33幅,表格11个,参考文献84篇。
其他文献
报纸
党的十九届四中全会指出,“要加强和创新社会治理,完善党委领导、政府负责、民主协商、社会协同、公众参与、法治保障、科技支撑的社会治理体系,建设人人有责、人人尽责、人人享有的社会治理共同体。”随着经济社会快速发展,中国已经进入了一个崭新的时代,社会矛盾逐步发生转变,这也增加了社会治理问题的多样性和复杂性。如果仅靠党和政府的力量去维持社会和谐,实现治理效能的最大化是非常困难的。因此,在这样的大背景下提出
学位
随着我国城镇化进程的不断加快,大量人口与产业向中心城市及其周边转移,带来了许多民用建筑与基础设施的建设与改造需求。再生混凝土材料作为一种从建筑废渣中回收利用的绿色建材,它推广和应用既能减少本身堆放所产生的污染,又能缓解原生骨料供不应求的问题。预应力装配式框架结构是一种残余变形小、耗能能力强、抗震性能良好的装配式结构形式,将再生混凝土运用到这种结构中,既能做到低碳环保又能保证结构具有足够的安全与稳定
学位
根据十九大对于生态文明建设作出的指引,节能环保产业规模与资金投入要不断加大并确保环保行业形成良好的发展格局。环保行业身肩生态文明建设和污染防治的重担,行业发展体系正全面升级。环保行业同时追求经济效益和生态效益最大化的目标,以此促进经济社会的转型和低碳经济的形成。随着环保行业步入快速增长阶段以及环境治理市场需求不断提高,资本市场上也活跃着越来越多的环保企业。因此,对环保企业的价值评估具有现实意义。目
学位
随着经济的快速发展,中国迎来了产业化革命,金融行业快速发展,金融行业的市场化对传统银行产业造成了巨大的冲击。银行的根本是客户,客户的来源是实现银行竞争力提升的关键,也是银行长远生存和发展的保障。随着CTOB业务的高速发展,加上同业竞争加剧,第三方支付分流客户等因素的综合影响下,银行客户的到店率呈现直线下降的趋势,银行想要在新的经济变革形势下,获得新的发展机遇,银行的客户模式必须从传统的BTOC模式
学位
报纸
两值期权是一种具有不连续收益的新型期权,在到期日它的支付依赖于标的资产的价格和两值期权的种类,在实际金融市场中有着广泛的应用,因此更精准的对两值期权进行定价研究,具有非常重要的理论意义和现实意义。本文以两值看涨期权为研究对象,以混合双分数布朗运动和混合次分数布朗运动刻画标的资产价格波动,分别考虑混合双分数随机利率模型、有交易费用和红利支付、以混合次分数Vasicek利率模型刻画实际市场利率的两值期
学位
无人驾驶技术已经成为全球汽车行业的研究热点,定位模块是其中重要的组成部分,是实现车辆智能化、自动化的基础。自动驾驶地图作为无人驾驶系统中不可或缺的先验信息,是重定位、路径规划、导航决策等任务的前提条件。针对无人驾驶系统中对定位和先验地图的需求,本文利用无人车自身搭载的多种传感器数据实现全局环境地图的构建、环境中无人车的精确定位,通过对环境中的动态点云进行剔除实现点云地图的维护与更新。主要的研究内容
学位
学位
在自然环境中,煤矸石山极易发生自燃、淋溶、扬尘等自然灾害,对大气、水体、土壤等造成严重污染。然而,煤矸石山的自然修复过程极其缓慢,因此采取有效的人工修复措施对其进行生态重建于周边环境、民生、经济等意义重大。其中,植被修复效果评价作为生态治理修复工程中必不可少的环节,为煤矸石山的后续管理、维护及相似治理修复工程等提供科学依据和参考。目前,植被修复效果评价主要依靠实地样方调查等传统方法,不仅耗费大量人
学位