融合多模态数据和情感信息的短视频标签推荐方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mqz614005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着移动互联网技术的发展和数据传输带宽不断增大,有利于信息朝多元化发展,图片、视频成为了人们之间社交信息传播的新媒介。其中短视频时间跨度短,但具有鲜明的主题信息,可以被方便地拍摄并即时分享,易广泛传播并且数量巨大。短视频平台的标签推荐任务生成的标签有助于对不同短视频的粗粒度分类,同时也有助于帮助用户浏览其更加感兴趣的内容,具有重大的研究意义。短视频标签推荐任务中本质上是从视频到文本的训练任务,视频数据的特征提取十分重要,现有的视频标签推荐模型在多模态信息融合时往往选择的模态信息不够充分,并且融合方法主要是将不同的模态信息映射到同一表示空间,融合效果和现在在其他领域中主流的Transformer多模态融合方法相比效果不佳,并且由于在社交平台中短视频里出现的人物信息较多,情感标签也较为丰富,以往模型对于具有情感属性标签预测能力通常也弱于内容描述属性的标签。针对这些的问题,提出了一种利用多模态Transformer并结合情感分析(Multimodal Transformer with Sentiment Analysis,MTSA)的短视频标签推荐模型,选取了视频中的视觉、音频和文本信息,将模型的视频特征提取分为视频内容信息提取模块和视频情感信息提取模块,其中内容信息提取模块借鉴视频描述领域中的融合方法,将Transformer中的解码器部分进行改进后,通过自注意力机制加强单一模态的特征提取,通过跨注意力机制融合不同模态之间的信息;而情感模块采用预训练模型对情感特征进行提取,通过多头注意力机制进行融合;最后得到三个模态信息的内容以及情感特征,在两个模块后加入了注意力机制,融合了内容特征、情感特征和标签信息得到权重矩阵,使得两个模块在不同的标签下进行信息融合时赋予不同的权重,并将标签推荐当成多标签分类问题。在Vine短视频数据集上进行了对比实验以及模块消融实验,改进后的融合方法同其他对比模型相比,在用于评估推荐系统的Recall@5、NDCG@5指标上有2.06%和、1.59%性能提升,短视频多模态特征融合中采用编码器结构在Recall@5、NDCG@5指标上有3.08%、2.83%的性能提升。
其他文献
“认识秒”是一个托底课程,在此之前,学生已经学习了“时”和“分”两个常见的时间单位,不仅如此,学生还能认读和书写一般精确到分的时间时刻。“秒”是继“时”和“分”后出现的一个较小的时间单位,由于在日常计时中存在感很低,而且时间单位较为抽象,缺少直观的事物来刻画和形容,不像长度单位、面积单位那样可以借助许多事物来直观演示,且1秒的时间过于短暂,小学生很难敏锐地感受其长短。因此,本课着力解决这一难点,通
期刊
密码管理机制是一种利用数据库批量存储和管理个人密码的技术手段。为保证安全,用户的密码数据须进行加密处理后存入数据库。然而在实践中,用户往往倾向于使用简单重复的低熵密码作为密钥,这使得传统的密码管理机制极易受到合法编码问题的影响。同时,撞库攻击的存在也极大地威胁了密码数据库的安全,此种攻击利用数据库内泄露的信息作为参照,使得攻击的成功概率极高,极易造成大规模的隐私泄露。针对上述问题,提出了一种基于蜜
学位
近年来,随着互联网的发展,人们对基于位置服务的精度要求越来越高,由于WiFi设备的低成本和广泛部署,基于WiFi指纹的室内定位技术成为研究热点。但是大多基于WiFi指纹的室内定位技术存在两个问题:一是定位精度易受接收信号指示强度(Received Signal Strength Indication,RSSI)波动的影响,导致定位精度不高;二是设备多样性使得在线定位阶段的RSSI数据和离线训练阶段
学位
冠状动脉各解剖节段的准确识别对于心血管类疾病的诊断是非常重要的。目前的计算机辅助诊断系统通常不考虑报告冠状动脉疾病的病理位置,这就需要放射科医生手动进行相关检查和报告病变区域。实现冠状动脉的自动分段标记,将提高医生疾病诊断的效率,也有利于计算机辅助诊断技术的进一步发展。冠状动脉分段标记主要存在的问题是个体间的差异性大。很多现有的冠状动脉的自动分段方法存在识别的分支数量较少、侧支准确率较低、网络结构
学位
随着互联网的发展,数据发挥着越来越重要的作用。分布式协作机器学习允许多个客户端设备参与训练,同时一定程度上保证了数据隐私,因此迅速兴起。联邦学习和拆分学习是其两种主流实现方式。拆分学习与联邦学习相比可以更好地缓解客户端计算资源匮乏的情况,且具有更好的隐私性。用户参与拆分学习的目的是要通过参与全局的训练提高预测精度,然而参与训练的客户端设备数据的非独立同分布问题可能会对训练模型产生负面影响,导致客户
学位
电子计算机断层扫描是无创评估肌肉质量的黄金标准,依据第一腰椎位置的扫描图像中骨骼肌的面积可以鉴别是否患有肌少症。相对于人工手动标注的方法,自动分割技术可以提高分割效率以及准确度,再借助临床数据即可实现计算机辅助诊断。但现有的分割模型在来源不同或质量不一的图像上泛化性不够好,或者在分割区域边缘时不够精确,存在准确率不够高的问题。针对现有模型在肌少症辅助诊断领域准确率不够高和泛化性不够好的问题,提出基
学位
课程标准是有效实施教学的前提,也是指导教师如何把握课堂教学的依据,其中教材是实现课标要求的载体。进行教学设计首要任务就是研读教材,而研读的关键在于重难点的把握。《秒的认识》一课的重点难点确定为建立"1秒"、"1分"的时间观念,如何建立?本文从三个不同的体验中去"启蒙"、"发展"、"强化"时间观念,从而突破教学的重点难点。
会议
随着计算机软件在当今信息社会中的普及,软件的安全和版权保护问题愈来愈受到人们的重视。二进制代码是应用软件的重要发布形式之一,因而二进制代码和源代码匹配在应对这两个问题中发挥着重要作用,例如使用源代码来搜索已发布软件中的漏洞、对二进制代码进行溯源以检查其是否违背开源协议。目前,一些方法已经被提出来用于解决二进制代码和源代码匹配问题,这些方法通常是通过某些相似性约束来共同学习二者的嵌入(Embeddi
学位
遥感图像目标检测是遥感图像领域的一个重要研究方向,广泛应用于军事侦察和民用监控领域,其关键研究问题是如何提高遥感图像分类和定位的精度。然而,相对于自然图像,遥感图像目标存在排列密集、方向角度多、小目标数量大等特殊问题,利用通用的目标检测模型效果并不理想。因此,研究有效的面向遥感图像的目标检测方法,提升目标检测器的精度,具有重要的实际意义。针对遥感图像目标检测的上述问题,结合检测框设计和深度学习技术
学位
在生物学领域中,常见问题是利用知识网络中已有的信息来预测新的关联,即生物链接预测问题。随着生物学领域的相关研究快速发展,大量的生物学相关信息被发现和研究,对于这些不同类别、不同特征的生物实体,构建生物知识图谱这一方式能够有效地组织专业领域内知识。针对生物领域知识图谱嵌入来进行链接预测这一领域面临的两个问题,即如何将生物实体结构的特殊性与知识图谱嵌入相结合,以及如何对含有结构信息的实体嵌入进行特征提
学位