一种基于音、视融合的自然情绪识别

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hyxh4388488
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情绪的自动识别是人机交互中的关键技术之一,近年来越来越受到人们的重视。包含在人脸表情和语音信号中的情绪信息是极其重要的信息资源,本文提出一种基于语音、视觉多通道融合的自然情绪识别方法,利用语音信号与人脸表情中情绪信息之间的互补性来解决情绪识别问题,以获得相对于单一信号识别更为准确、可靠的识别效果。两个关键性的问题:1)如何确定一个音、视融合的情绪识别框架;2)针对不同信息通道,如何构造合适的识别器。本文在分析和总结领域内大量相关工作的基础上,提出了一个基于情绪基调判断的音、视融合情绪识别框架,其中语音通道采用隐马尔科夫模型(Hidden Markov Model,HMM)作为基本识别模型,视觉通道则采用随机森林(RandomForset)算法;设定两种情绪基调:正基调、负基调;基于情绪基调对单一通道识别结果进行修正,并以情绪基调为指导进行两通道情绪识别结果的融合。  本文主要工作如下:  1.基于音、视融合的情绪识别框架研究  分析现有的多通道融合框架,对各框架采用的融合方法进行分类和总结,进而提出一个基于情绪基调的两阶段音、视情绪识别融合框架,在语音、视觉通道上分别采用隐马尔科夫模型、随机森林算法作为基本识别模型,设定两种情绪基调:正基调、负基调;以情绪基调作为指导,修正单一通道识别结果;并在此基础上,提出基于相关系数的线性融合算法,对两通道情绪识别结果进行融合。  2.基于隐马尔科夫模型(HMM)的语音通道情绪识别  分析目前语音情感识别的发展历程、研究领域以及应用场景,介绍目前语音情感识别的主要研究方法。应用隐马尔科夫模型作为语音情绪识别的基本模型,对其分析过程和设计思想进行了深入详细地探讨。重点探讨在情绪基调指导下,改进基本HMM模型,采用分层识别的思想,对不同情绪基调的音频特征,采用相应的HMM模型分别进行识别。  3.基于随机森林(Random Forest)算法的人脸表情情绪识别  采用随机森林(Random Forest)作为视觉情绪识别的基本算法,详细探讨了其设计思想和识别过程。同时,详细阐述如何依据情绪基调值,对随机森林里叶子结点里的分类结果进行修正。
其他文献
P2P计算是一项具有广泛发展前景的技术,它带给我们的不仅有机遇,还有挑战。受到P2P本身结构特点的影响,P2P系统易于受到攻击,因而安全问题在P2P研究中占有相当重要的位置。信任管
近年来在人工智能领域,不确定性问题一直成为人们关注和研究的焦点。贝叶斯网是用来表示不确定变量集合联合概率分布的图形模式,它反映了变量间潜在的依赖关系。使用贝叶斯网建
随着互联网的发展和普及,互联网隐私问题已经成为上网用户最关注的问题之一。通常,用户的个人隐私数据被大量地存储在Web站点中,由于互联网上信息获取的方便和快捷,当个人的信息
人类接触的各种信息中,图像信息占据了60%~70%的。图像信息是人类传递视觉信息的主要媒介,图像给人们直观而具体的物体形象,这是声音、语言和文字所不能比拟的,因此数字图像已称为当
遗传算法(Genetic Algorithm——GA),是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,它是由美国Michigan大学的J.Holland教授于1975年首先提出的。J.Holland教授和
高能粒子直线加速器是采用沿直线轨道分布的高频电磁场加速电子、质子和其它重离子的装置。根据加速粒子的不同分为电子直线加速器、质子加速器、重离子直线加速器等。加速器
三维地质模型可视化交互系统指出了利用计算机和人共同构建三维地学模型系统,强调了人机交互在三维地学模型软件中的重要作用。本文以面向对象的思想和基于组件的理论,完成了
随着生活品质的提高,人们生命财产的安全与保障越来越受到重视。各国政府纷纷建立各种应急的机制和系统,以应对突发的应急事件的威胁和侵袭。目前常见的突发应急事件的处置方式
在真实世界的分类问题中,不同的分类错误往往会带来显著不同的损失,而且不同类别样本的数目往往有显著的差别。传统的机器学习研究假定所有的分类错误会带来相同的损失,而且不同
Web服务技术将静态的、无结构的Web页面扩展到Internet上具有自主行为、具备执行任务能力的服务,Web服务成为基于Internet进行分布式计算的基本元素,实现了分布式系统间的跨平