基于VAE单流表征模型的多模态社交数据分类与优化研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:luckycpw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体数据的体量随着网络技术的发展得到了飞速增长,而社交数据能够真实反映用户的心理、情绪等信息,除此之外对一些有害信息进行及时鉴别也是十分必要的。而随着移动设备的发展,越来越多的用户选择在社交媒体上分享自己的视频、图像、音频等数据,社交媒体数据已经呈现多模态化的趋势。然而对多模态数据进行分析仍然存在许多问题,主要包括了模态间数据表现形式不统一的问题以及模态间表征内容不统一的问题。受限于模态间数据的结构性差异,目前的主流多模态分类任务一般采用双流模型的设计,即使用各自模态对应的模型进行高质量特征提取并进行融合。但是不同模态之间目前采用的方法不尽相同,这也导致了模态之间存在量纲等难以调和的差距,这为模态间信息融合带来了难以逾越的鸿沟。随着Transformer机制和预训练模型概念的提出,使用单一结构的模型处理不同模态数据为大幅度缩小模态间结构性差距提供了可能性。针对目前双流模型存在的不足以及早期单流模型中一些难以弥补的缺陷,本文展开了以下的研究:(1)针对模态间数据存在结构性差异的问题,本文提出了基于离散变分自编码器的单流表征模型。该模型首先使用离散变分自编码器将具有多样性的图像数据降维采样到有限范围的序列组合,这使模型可以采用与文本数据类似的模型来提取在图像数据中所蕴含的信息。接下来本文选择了结构相同的BERT模型作为两种模态的特征提取模型,并将处理后的信息进行拼接并使用一个额外的BERT模型计算两种模态之间的自注意力,最终得到融合之后的特征向量。在本文所收集到的多模态社交数据集中,本文提出的单流模型达到了74.83%的准确率。除此之外本文还与其他主流的双流模型进行了实验对比,结果证明了本文模型的有效性。(2)针对模态间的数据差异会带来表征空间层次的语义差异,本文还提出了基于对比学习的单流模型表征对齐优化用于进一步改善模态间的结构性差距。通过将当前训练迭代步骤内的某种模态表征与当前步骤内和之前几个训练迭代步骤中的另一种表征进行联合对比,并使用NT-Xent损失函数生成额外的对比学习损失以用于修正两种模态之间的信息差距,本文提出的模态对齐优化方法能够有效提升模态间的信息对齐程度。在本文的实验中,在单流模型上使用了对齐优化的方法可以使准确率提升到76.11%。除此之外,本文还在其他双流模型上实验了所提出的对齐优化方法,实验结果均证明了本文的方法能够提升多模态模型的表征效果。
其他文献
遥感图像的变化检测指的是通过卫星、无人机等一系列高低空遥感平台对地表拍摄,获取到图像从而进行检测来定位发生变化的区域以及识别不同的变化类型。利用遥感图像的变化检测对指导地质勘探、资源管理、环境监测等方面都有着重要意义。与传统的变化检测方法相比,深度学习的检测方法准确率更高,鲁棒性更强。因此本文从二类别变化检测和多类别变化检测的角度出发,对遥感图像进行研究。主要研究工作如下:(1)针对UNet++网
学位
为了应对人口老龄化问题,1994年,世界银行经过调查研究,提出了“三支柱养老保障体系”。该体系中,企业年金居于中间位置,自此之后,我国政府机构开始认识到企业年金的重要性。上世纪九十年代初期,企业补充养老保险第一次进入大众视野,一直到新世纪初期,企业年金正式登上历史舞台,企业年金开始成为我国养老保障体系的组成部分。和欧美地区相比,国内企业年金出现时间更晚一些,基金规模较小,仍存在比较大的发展空间,还
学位
互联网的快速发展给智能移动设备的使用提供了极大的便利,智能移动设备的类型以及设备上搭载的应用都有了量的飞跃。由于互联网掀起的短视频之风,基于视频流的应用不断涌出。生活中随处可见的是人们手持移动设备进行拍摄;使用无人机执行拍摄任务;利用可穿戴设备帮助老人识别物体等。近几年,整个社会的表达和创作都在视频化,智能移动设备对于视频流的识别任务需求量正在急剧增加。目前,通常会使用深度神经网络来处理连续视频流
学位
妆容迁移是计算机视觉领域前沿的热点研究方向,属于风格迁移与人脸图像处理的范畴,旨在将任意目标妆容迁移到指定人脸图像上。妆容迁移不仅包括人脸对齐与色彩迁移等工作,而且要考虑到不同人脸的光影以及纹理差异。大量学者对妆容迁移问题展开研究,已经取得了一定成果,但依然存在着一些挑战。如迁移模型难以同时应对风格差距较大的妆容迁移;算法对图像质量要求较高,阴影、遮挡以及姿态表情的差异会降低妆容迁移的质量;图像的
学位
我国在20世纪末就已进入人口老龄化社会,并且在最近几年我国人口老龄化的程度进一步加重,已经开始呈现出超前于经济发展的趋势。人的身体状况会随着年龄的增长而下降,受年老、疾病、意外等因素的影响,我国失能失智老人的数量也在随着老年人口的增加而不断攀升。失能失智老人的增加不论是给社会还是家庭都带来了较大压力,因此有必要建立符合我国国情的长期护理保险制度,为失能老人提供长期护理服务来满足他们对生活的需求,进
学位
在无人车应用问题的研究中,如何高效且安全地为无人车规划路径一直是一项热门且充满挑战的研究内容。传统的无人车路径规划算法主要包括全局路径规划算法和局部路径规划算法。其中,全局路径规划算法通过预先处理场景中静态障碍物信息,为无人车规划避障导航路径;局部路径规划算法通过无人车的激光雷达传感器或红外线传感器等接收装置读取地图场景中的动态障碍物信息,实时为无人车提供避障路径规划。随着人工智能领域科学技术的发
学位
中国已经进入了深度的老龄化社会,老人的赡养保障也成为了中国亟待解决的重难点问题。2021年,“十四五规划”明确提出:“要发展多层次、多支柱养老保险制度体系。”要在我国社会救助兜底、第一支柱基本养老金维持基本生活的基础上,大力建设企业年金与职业年金,发挥其补充保障作用。但现阶段,我国企业年金覆盖范围狭窄、参与率低下,这也导致企业年金平均养老金替代率比较低,距离目标替代率较远。因此现阶段,对企业年金养
学位
近年来,凭借着对数字技术的灵活运用,互联网金融公司为客户提供第三方支付、线上理财、线上存贷款等创新的金融服务和金融产品。这些互联网金融产品和服务凭借着低门槛、方便快捷的特点,迅速完成了客户的积累和规模的扩张,对商业银行的业务产生直接或者间接的竞争。在传统的金融体系中,商业银行是金融市场上资金的供给者,因此在金融市场有着垄断的地位。互联网金融企业则打破了商业银行原本在金融市场的垄断地位,对银行业造成
学位
我国人均收入水平不断提高,仍然存在收入差距过大的问题。改革开放以来,我国居民人均可支配收入实现二十年翻三番,城镇新增就业人口连续7年超过1300万人,832个贫困县和12.8万个贫困村全部摘帽,现行标准下近1亿农村贫困人口全部脱贫,建成了世界最大的社会保障网,社会保障建设取得新成效。但也必须清醒认识到,我国中等收入群体的比重仍旧偏低,收入结构仍偏重“哑铃”型,且收入分配不均现象长期存在,收入差距依
学位
逻辑回归作为一种模型解释度高的分类算法,经常运用于很多领域中,可以得到很好的效果。不过,传统的逻辑回归在处理高维的且变量间相关性很强的数据时,效果不尽如人意。学者们提出过多种解决办法,正则化是其中效果较好的一种方法。本文拟采取正则化的方法,提出双权重弹性网-逻辑回归多步筛选算法。将一范数自适应权重、二范数相关性权重、多步迭代等思想引入逻辑回归模型的正则化惩罚中,实现逻辑回归在高维数据下获得稀疏解并
学位