基于视音频多特征融合的情感识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:peteryang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着这几十年来人工智能技术突飞猛进的发展,情感识别得到了越来越多研究者们的关注。计算机只有拥有人类的情感才能真正的实现智能化,而情感识别是其首要考虑的问题。本文提出新的特征描述子,再通过多个视频特征的融合,结合具有判别力的音频特征,显著提高了视音频情感识别的效果。本文主要的研究工作如下:1、针对视频表情识别大多数是基于静态图片的,缺乏时域信息,本文提出新的特征描述子——时空多值韦伯特征提取算法(STMWLD),STMWLD不仅可以提取时空域信息,还可以细化纹理信息。再融合具有互补性的全局特征(CNN、Gist)和局部特征(LBP、STMWLD),经过KECA+DMCCA融合框架不但实现了特征的有效融合,而且显著降低了冗余信息。论证了单一特征往往不能充分描述人脸的面部特征信息,需要将不同的具有互补性的特征进行融合,才能有效提高表情识别率。2、自建自然表情视频库。目前面部表情的识别大多处于实验研究阶段,实际自然场景中的表情不止仅限于标准数据库中的六种表情,并且真实场景中的表情识别易受各种复杂因素的影响。为了更为准确的反应真实复杂自然场景中视频表情识别的效果,本文自制视频表情数据库,采用以上提出的多特征融合方法,在该自建数据库上的情感识别率达到55.45%。3、双模态情感识别。为了更有利于提高情感识别的精度,本文采用视音频特征融合的双模态情感识别方法。利用上述互补性特征作为视频特征,利用最有判别力的25个韵律特征和MFCCs作为音频特征。由于视音频特征之间存在一定的差异性,本文采用MKL-SVM解决该问题。最终实验分别在标准数据库RML和SAVEE上进行,实验结果表明双模态多特征融合的情感识别效果明显好于单模态的,且视音频情感识别率平均分别达到78.82%和87.64%,更进一步的提高了视频情感识别率。
其他文献
对系统非优分析理论做了较为详细的论述。指出寻求不确定系统优化的主要问题 ,关键是缺少对系统的非优分析。在系统非优范畴的基础上建立了征兆群与经验分析 ,提出了系统非优
以盆栽二年生夏蜡梅(Sinocalycanthus chinensis)实生苗为材料,分对照、轻度胁迫、中度胁迫和重度胁迫4组,研究了不同程度干旱胁迫和复水对夏蜡梅光合特性的影响。结果表明,
采用裂区设计法研究了重庆缙云山酸性土上施钙与接种耐酸根瘤菌对紫花苜蓿生长和品质的影响。结果发现:接种耐酸苜蓿根瘤菌对苜蓿植株瘤重、根鲜重、株高、植株上部鲜重、全
采用田间试验在施氮量为06、0、120、1802、40、3003、60 kg/hm27个水平下研究了不同水稻子粒产量、产量构成因子以及氮素吸收和利用的差异。结果表明,水稻品种4007的子粒产
分别以小麦、燕麦、毛葱、芹菜、白菜与黄瓜伴生或套作,研究了不同栽培模式对黄瓜根际土壤酶活性及细菌群落结构的影响,为连作土壤环境修复提供理论依据。结果表明,小麦/黄瓜
<正>为降低银行卡被克隆盗刷的风险,保障资金安全,2015年我国将全面推广金融IC卡,即俗称的芯片卡,银行磁条卡将退出历史舞台。据报道,我国目前已发行30多亿张银行卡,绝大多数
对现代近空防空导弹武器系统的特征参数进行了分析 ,并用这些参数描述主要战技指标 ;基于模糊函数加权线性变换的方法 ,对国外几种低空防空导弹武器系统进行了综合评估 ,并根
<正>地产公司销售人员泄密个人信息被肆意买卖2010年7月,王某大学毕业后应聘到一家地产公司做销售工作。由于工作的性质,王某经常接触到诸多的客户资料。慢慢地,王某产生了利
目的:了解当代大学生婚恋观念,为高校学生工作提供参考。方法:采用问卷调查法,对华中农业大学100名学生进行婚恋观调查,随后用SPSS 17.0软件包对数据进行分析。结果:男女生初
以"京玉五号"为试材,利用GC-MS测定法,在溶液培养条件下研究了不同氮素供应水平对甜瓜芳香物质和营养品质的影响。结果表明,在不同氮素水平条件下,甜瓜的芳香物质的种类和含