【摘 要】
:
多模态情感分析研究如何让计算机自动地监测出多媒体数据的情绪倾向、程度、类别。目前的多模态情感分析大多基于视频、语音和文本三种模态,是人工智能研究领域的一个重要方向,在日常的诸多领域中都有着广泛应用,例如,市场调查、智能人机交互和客服系统。现实场景中的多模态数据在时间序列上并不对应,难以进行有效的多模态融合。现有的多模态情感分析方法大多只适用于多模态信息已经对齐的数据,但无疑额外增加了数据处理成本。同时,现有的方法大多采用三个模态间两两融合的方式,忽略了单模态内部重要信息和三个模态的内在的相关性,因此并未很
论文部分内容阅读
多模态情感分析研究如何让计算机自动地监测出多媒体数据的情绪倾向、程度、类别。目前的多模态情感分析大多基于视频、语音和文本三种模态,是人工智能研究领域的一个重要方向,在日常的诸多领域中都有着广泛应用,例如,市场调查、智能人机交互和客服系统。现实场景中的多模态数据在时间序列上并不对应,难以进行有效的多模态融合。现有的多模态情感分析方法大多只适用于多模态信息已经对齐的数据,但无疑额外增加了数据处理成本。同时,现有的方法大多采用三个模态间两两融合的方式,忽略了单模态内部重要信息和三个模态的内在的相关性,因此并未很完整的挖掘和融合多模态信息。
为了解决上述问题,本文提出了基于联合注意力网络的多模态情感分析技术,该网络包含以下几个部分:
(1)提出了基于联合注意力的跨模态融合网络,用于非对齐多模态序列。具体地,设计一种联合注意力机制使三个模态进行同步融合。同时,考虑到不同模态之间的依赖关系,进一步的采用自适应加权融合方法,自动学习每个模态的特征权重后再融合。
(2)提出了基于层级聚合的特征增强算法。用于提取单模态内部不同层面的信息。具体地,该模块将不同层的语义信息融合到顶层,增强了单个模态特征对情感分析的贡献。
(3)提出了基于典型关联分析的特征增强算法,用于学习全局共享特征。该模块通过多任务学习方式,挖掘多模态全局共享特征的同时,利用典型相关分析进一步增强模态之间的相关性。
基于上述设计,文本提出的模型在非对齐的多模态情感分析场景中,与目前学术界上最好的性能相比较,对比情感分析测试中的7分类精度、2分类精度、F1三个指标,在MOSI数据集分别提升2.6%,1.8%,1.9%,在MOSEI上分别提升2.4%,1.5%,1.6%。
其他文献
随着物质生活水平的提高,人们越来越重视精神生活的需要,选择音乐教育的人也越来越多。钢琴教育作为音乐教育中最为成熟的方向之一,吸引了众多学员。钢琴自动转录(Automatic Music Transcription,AMT)可以对钢琴演奏内容进行符号化输出,检测当前演奏的音符,输出音调、起始时刻、终止时刻,帮助演奏者记录演奏内容,提高演奏能力。
本文研究并实现了钢琴的自动转录系统,输入钢琴演奏音频或视频,基于图像或声音检测各个音符的演奏信息,包括音调、起始时间、结束时间。本文的主要内容包括以下三个
2009年12期我们推出“数码中国”专题,对数码领域的年度技术及应用、年度最佳产品进行一一盘点后,我们对2009年度的最佳工业设计数码产品进行了梳理和评选,在此,挑选出十大年度最佳设计产品,这些产品不仅是代表了数码产品设计的最新潮流,并且也将成为追求外观与设计感的精英人群消费首选。 01 Android英雄 第三代谷歌机HTC Hero 采用谷歌Andreid平台的智能手机已经成为20
汽车是现代生活中普遍使用的交通工具,汽车交通安全至关重要。障碍物检测依靠路况视频和计算机视觉技术,将成为未来辅助车辆安全行驶的重要发展方向。车辆由于自身设备的局限,需要通过车联网(IoV)信息交互来扩大障碍物检测的感知范围。5G移动网络可以有效地实现大规模车联网,随之兴起的网络功能虚拟化(NFV)技术将克服传统车联网的管理复杂、软硬件紧耦合等局限性,构建车联网新型网络架构。在此架构下,障碍物检测以服务功能链(SFC)的形式部署到车联网设施上,按需分配计算和带宽资源,这就是服务功能链的映射,是NFV技术的核
自动音乐转录(Automatic Music Transcription,AMT)是将声学音乐信号转换为符号标注的过程,常基于音频信息进行分析。但是多个音在同一时间会相互重叠,因此仅通过分析音频难以得到准确的识别结果,为了解决这个问题,可以采用基于计算机视觉的方法进行转录。
现有研究中,基于视觉的钢琴转录系统主要包括两个关键算法:基于霍夫变换的钢琴键盘检测和使用分类器的按键检测,但以上两个算法在复杂的环境中准确度和鲁棒性都有待提升。本文实现了一个鲁棒的、性能更高的视觉钢琴转录系统,该系统包含四个
爱看港剧的人,必定脱口而出黎姿、余诗曼,如果偏好新加坡电视剧,你一定忘不了她。实际上,无论是电影、电视、音乐、广告还是时尚界,你总能搜寻到她的身影,永远带着甜美清新的笑颜,始终谦和真诚的态度。她时尚、明朗的气质,她自然、细腻的表演,她纯净、真诚的歌声…… 她是“艺”态万方的范文芳。 家喻户晓的“Olay,女郎” 范文芳,原名范雯芳。1971年1月27日(农历正月初一)出生于新加坡,出
2009年巴塞罗那通讯展上索尼爱立信展出了一款代号为“Idou”的手机,引起了业内不小的震动,不仅仅是因为它是首款1200万像素的手机,而且在硬件配置上十分强大。不过它的正式发布却已经过去将近一年时间,第一款上市得1200万像素手机的头衔也被三星抢去,真可谓是历经波折,现在名字改成Satio的这款手机终于和我们见面了。 从“巧克力”到“冰淇淋”再到今天的“棒棒糖”,LG这样以甜品命名的系列手
从传出戴尔即将推出自有品牌手机到正式上市,也不过短短几个月时间而已,这其中不难看出PC厂家在其他领域扩张的速度。与其它PC厂家进入手机行业不同,戴尔并没有专门为手机成立独立部门,而是将其纳入按照屏幕尺寸来划分产品的系统之内,同时与中国移动深度合作也让初试手机市场的戴尔减轻了不少销售负担。 颠覆传统的设计 之所以称其为最小的戴尔,是因为前面所提到戴尔把手机也纳入其PC范围内进行管理销售,
护照是一个国家或地区的政府发放给本国家或地区的公民通用的身份证件,护照查验是指在护照持有人在出入境以及一些通关应用场景下对其进行个人信息核查从而来确定其合法身份。随着全球化的发展,使用护照进行自动身份验证的场景逐渐增多,应用前景较为广泛,同时也面临着基于护照的人脸验证方法识别精度不高以及欺骗人脸攻击的安全风险。
首先,针对护照自动查验系统在实际应用中容易受到照片和视频等欺骗人脸攻击的问题,本文提出了一种基于深度图的人脸活体检测算法,将3D摄像头采集的人脸点云数据转换成人脸深度图,通过深度网络模型
2009年巴塞罗那通讯展上索尼爱立信展出了一款代号为“Idou”的手机。引起了业内不小的震动,不仅仅是因为它是首款1200万像素的手机,而且在硬件配置上十分强大。不过它的正式发布却已经过去将近一年时间,第一款上市得1200万像素手机的头衔也被三星抢去,真可谓是历经波折,现在名字改成Satio的这款手机终于和我们见面了。 设计:更像数码相机? 熟悉SONY Cyber-shot系列数码相
近年来,科学技术的高速发展,在给人们的社会生活带来极大便利的同时,也提高了对个人身份认证安全性上的需求。目前,基于证件或者密码的身份认证技术已然无法完全满足人们的需要,而基于生物特征的身份认证技术以其安全可靠的优势,越来越受到社会和研究者们的关注。语音是人们日常生活中交流沟通最直接、最便捷的方式,基于语音的身份识别技术也因此成为了研究的热点,这就是声纹识别技术。
最近,深度学习技术在声纹识别领域取得的一系列的突破,尤其是基于余量的损失函数的提出,使声纹识别系统的性能有了很大的提升。然而,目前的声