基于深度学习的多模态数据处理算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:qingsong009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和移动端通信设备的长足发展,社交网络作为人们相互沟通的一大载体,在人们日常生活中占有着至关重要的部分。社交网络的数据载体很丰富,无论是文字、图片以及视频都可以作为其传播的载体。越来越多的人倾向于从不同的社交网络来获取一个事物的评价,比如从团购应用的评论来获取对一个店面的评论,从视频中对产品的评测获取产品的信息等。所以对多模态的数据的处理,并且从多模态数据中获取情感标签中获取有用的信息,是一个很值得深究的方向,并且可以有效的应用于很多应用中,如产品推荐、旅游推荐、娱乐推荐等。
  本文首先介绍了多模态数据处理相关的背景,以及该方向相关的研究成果。在前人研究的基础上,利用深度学习的知识,处理复杂场景的多模态数据,并应用在视频情感语义的识别上。本文主要通过两个方面来研究这个课题:(1)第一部分是研究多模态信息融合部分,通过搭建多层LSTM网络,融合多模态的数据并输出话语的特征,然后使用传统的LSTM模型组合话语序列来提取视频的特征并进行情感语义识别。(2)在情感识别的基础上,构建一种场地识别模型,通过在Twitter收集的场地多媒体信息数据集上训练出不同模态的情感检测器,然后对预先训练的检测模型对场地的多模态信息中给出综合的情感状态评估,最后融合不同模态的预测结果给出该场地的情感标签。
  本文中的评测数据库按照所进行的工作分为两类,首先在视频情感分析中所使用的数据库为MOSI数据集,其中有93个人就不同的事物用英语发表他们的看法,数据集的视频是分为小段的,其中就每一小段视频就其情感特性将其划分为-3(最消极)到+3(最积极)这些情感分数区间。MOUD数据集也是情感分析的数据集,它里面的视频段是西班牙语的,我们使用谷歌翻译API2将其翻译为了英文,其情感标记也有着积极、中立和消极这些描述状态。其次是在视频情感分析基础上的场地情感分析工作里,这里使用的数据集是源自Twitter上关于新加坡环球影城的地点的文本、图片和视频信息,通过一定的筛选获得较为热门的场地并用文中提出的场地情感模型来预测这些热门场地的情感,并邀请用户来对这些场地进行情感评价作为groundtruth,从而来验证我们基于多模态数据处理的场地情感分析的可用性和优越性。
其他文献
空间通信处理平台上存在大量的数字信号处理器如FPGA、DSP等。太空辐射粒子轰击到这些处理器后可能会使处理模块的存储数据发生改变,导致处理故障,其中最常见的故障就是单粒子效应。现代空间通信平台包含完整的发射和接收流程,其中接收处理复杂度远高于发射处理,而接收流程中复杂度最大的模块之一就是信道译码器。卷积编码作为一种纠错码是无线通信中经常使用的信道编码方式之一,接收端通常采用维特比(Viterbi)
学位
末制导雷达是导弹末端制导的跟踪雷达,而相控阵体制的末制导雷达区别于以往常规体制末制导雷达,是采用相控阵体制而建成的一种末端制导雷达。相控阵末制导雷达相较于常规体制的机械扫描末制导雷达有很多机械扫描雷达不具备的优点如:天线波束快速扫描能力、天线波形的捷变能力,空间功率合成能力、雷达天线共形能力、多波束形成能力、空域滤波与空间定向能力等。而空域滤波、波形捷变、多波束形成等能力具有很强的抗干扰能力,因此
目标检测作为一项重要的计算机视觉任务,用于对图像所包含的物体进行分类和定位。近年来,深度学习技术的快速发展使得目标检测迎来了新的契机,产生了许多经典算法。一般来说,从是否产生候选框的角度出发,可以将目标检测算法划分为两个分支:实时性良好的单阶段检测算法以及准确率相对出色的基于区域提议的算法。多尺度的目标检测一直都是这两种算法优化的基本挑战,尤其是对于小目标的检测。  本文针对特征金字塔网络(Fea
学位
随着基于位置服务需求的增长,室内定位成为国内外学者研究的重点领域。研究发现采用多传感器信息融合方法可以提高定位准确度。针对室内定位的发展趋势以及惯性和视觉定位的各自优缺点,从不同融合结构角度出发,本论文主要提出了以下三种融合定位算法:  第一种算法是利用极限学习机融合惯性和视觉信息进行室内定位。在基于单层极限学习机的视觉定位方法中,引入图像模糊判断解决采集的图像模糊时视觉定位算法误差大的问题。同时
在当今的信息化时代,随着人类对高质量图像和视频的主观需求越来越强烈,图像和视频处理技术越来越广泛地应用在各个领域。图像复原技术是指在现有硬件条件下,从软件层面对退化图像和视频进行处理,使其尽可能地复原出目标场景的细节信息以提升图像和视频质量。近年来,深度学习由于具有强大的自学能力,可以端到端地学习不同质量空间的特征映射,为图像复原领域带来了全新的发展理念。  在图像复原任务方面,现有的深度卷积神经
学位
目标检测与角度估计技术是数字图像处理研究的热门之一,伴随着深度学习框架的逐渐成熟,目标检测与角度估计技术在学术界掀起了一股新的热潮。此类技术被广泛应用于诸多场景中,然而在应对不同场景需求时,目标检测与角度估计技术经常遇到信息观测维度的问题:在某些有限的信息观测维度下观测,目标之间或目标与背景之间差异较小,进而导致分辨效果较差。因此为提升目标检测与角度估计效果,需要结合场景特点,在场景内寻找最有效的
学位
傅里叶变换红外光谱(Fourier transform infrared spectroscopy,FTIR)显微成像是一种同时涵盖精细光谱信息和空间信息的微区分析技术,具有上百个光谱波段的探测能力,光谱分辨率可达到λ/Δλ=100个数量级的光谱立体图像,最近一些文献中也称FTIR显微成像为FTIR高光谱显微成像。依据化学计量学定性剖析光谱信息时关注光谱维度,是因为FTIR显微成像数据具有丰富的特
水声通信技术作为智慧海洋工程中的一项重要技术,经历了近半个世纪的发展。针对水声通信网络层技术的研究层出不穷,大大提升了水声通信系统的可靠性和有效性。随着水声通信技术的发展,水下节点间无线组网通信受到了广泛关注,使水声传感器网络(Underwater acoustic sensor network,UASN)的工程化成为可能。在UASN中,端到端可靠传输一直是该领域备受关注的研究热点之一。论文以国家
无线通信网络正处于一个机遇与挑战并存的深度变革期。为了满足呈指数级增长的用户业务需求,无线通信网络的布设结构正逐渐向密集化和不规则化演进。与此同时,为了提高日益紧缺的可用频谱资源的使用效率,无线通信网络中的多址接入技术由正交模式向非正交模式转变。面对标新立异的通信技术,亟需充分挖掘网络参数与网络性能之间的内在联系,探究网络性能随网络参数的变化规律,并以此为理论依据进一步指导优化网络设计。然而,在形
近年来,随着多媒体技术的发展,立体图像受到越来越多的关注,而立体图像在采集、压缩、传输、显示等过程中均会产生降质问题,立体图像的质量会直接影响人们的观看体验,因此,亟需一种有效的评价方法对立体图像质量进行评估,好的评估方法还可以刻画与之相关的各种图像处理技术的优劣,并据此加以改进。  深度学习,尤其是卷积神经网络在最近几年得到了快速发展,在图像分类和物体检测等领域中都得到了很好的应用。卷积神经网络