论文部分内容阅读
随着计算机网络和移动端通信设备的长足发展,社交网络作为人们相互沟通的一大载体,在人们日常生活中占有着至关重要的部分。社交网络的数据载体很丰富,无论是文字、图片以及视频都可以作为其传播的载体。越来越多的人倾向于从不同的社交网络来获取一个事物的评价,比如从团购应用的评论来获取对一个店面的评论,从视频中对产品的评测获取产品的信息等。所以对多模态的数据的处理,并且从多模态数据中获取情感标签中获取有用的信息,是一个很值得深究的方向,并且可以有效的应用于很多应用中,如产品推荐、旅游推荐、娱乐推荐等。
本文首先介绍了多模态数据处理相关的背景,以及该方向相关的研究成果。在前人研究的基础上,利用深度学习的知识,处理复杂场景的多模态数据,并应用在视频情感语义的识别上。本文主要通过两个方面来研究这个课题:(1)第一部分是研究多模态信息融合部分,通过搭建多层LSTM网络,融合多模态的数据并输出话语的特征,然后使用传统的LSTM模型组合话语序列来提取视频的特征并进行情感语义识别。(2)在情感识别的基础上,构建一种场地识别模型,通过在Twitter收集的场地多媒体信息数据集上训练出不同模态的情感检测器,然后对预先训练的检测模型对场地的多模态信息中给出综合的情感状态评估,最后融合不同模态的预测结果给出该场地的情感标签。
本文中的评测数据库按照所进行的工作分为两类,首先在视频情感分析中所使用的数据库为MOSI数据集,其中有93个人就不同的事物用英语发表他们的看法,数据集的视频是分为小段的,其中就每一小段视频就其情感特性将其划分为-3(最消极)到+3(最积极)这些情感分数区间。MOUD数据集也是情感分析的数据集,它里面的视频段是西班牙语的,我们使用谷歌翻译API2将其翻译为了英文,其情感标记也有着积极、中立和消极这些描述状态。其次是在视频情感分析基础上的场地情感分析工作里,这里使用的数据集是源自Twitter上关于新加坡环球影城的地点的文本、图片和视频信息,通过一定的筛选获得较为热门的场地并用文中提出的场地情感模型来预测这些热门场地的情感,并邀请用户来对这些场地进行情感评价作为groundtruth,从而来验证我们基于多模态数据处理的场地情感分析的可用性和优越性。
本文首先介绍了多模态数据处理相关的背景,以及该方向相关的研究成果。在前人研究的基础上,利用深度学习的知识,处理复杂场景的多模态数据,并应用在视频情感语义的识别上。本文主要通过两个方面来研究这个课题:(1)第一部分是研究多模态信息融合部分,通过搭建多层LSTM网络,融合多模态的数据并输出话语的特征,然后使用传统的LSTM模型组合话语序列来提取视频的特征并进行情感语义识别。(2)在情感识别的基础上,构建一种场地识别模型,通过在Twitter收集的场地多媒体信息数据集上训练出不同模态的情感检测器,然后对预先训练的检测模型对场地的多模态信息中给出综合的情感状态评估,最后融合不同模态的预测结果给出该场地的情感标签。
本文中的评测数据库按照所进行的工作分为两类,首先在视频情感分析中所使用的数据库为MOSI数据集,其中有93个人就不同的事物用英语发表他们的看法,数据集的视频是分为小段的,其中就每一小段视频就其情感特性将其划分为-3(最消极)到+3(最积极)这些情感分数区间。MOUD数据集也是情感分析的数据集,它里面的视频段是西班牙语的,我们使用谷歌翻译API2将其翻译为了英文,其情感标记也有着积极、中立和消极这些描述状态。其次是在视频情感分析基础上的场地情感分析工作里,这里使用的数据集是源自Twitter上关于新加坡环球影城的地点的文本、图片和视频信息,通过一定的筛选获得较为热门的场地并用文中提出的场地情感模型来预测这些热门场地的情感,并邀请用户来对这些场地进行情感评价作为groundtruth,从而来验证我们基于多模态数据处理的场地情感分析的可用性和优越性。