基于记忆单元和多模态融合的视频实时评论生成方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shenth_1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展以及网络电视平台的兴起,用户的需求也不再是简单的观看视频,还想在观看的同时寻求他人的见解或表达自己的观点。与传统评论区不同,视频实时评论即“弹幕”有着实时性强,互动性强,包含用户情感等特点。视频实时评论生成可以应用于提高视频或直播间人气,产生实际的经济效益,加强视频与用户的交互,提高用户的观影体验。视频实时评论自动生成任务是一个多模态任务,在生成实时评论时需要结合视频的图像信息以及视频周围的实时评论文本信息。但是以往的研究中,在进行两种信息融合时会丢失长距离依赖信息。除此之外,一个视频的原有文本中有着很多与视频内容无关或者语义不强的语句,对实时评论生成的效果起到负面作用。针对上述两个问题,提出了一种基于记忆单元与多模态融合的视频实时评论自动生成模型(Memory Multimodal Stack Transformer,MMST)。该模型主要由三个部分组成。第一部分是特征提取器,其主要作用是对原始视频以及视频周围的评论文本进行处理并提取特征;第二部分是特征编码融合器,该部分首先会将前一部分提取的特征输入到文本过滤单元中,使用提取到的视频特征对文本进行过滤从而强化文本信息的作用。之后再将计算结果与视频特征输入到堆叠的含有记忆单元的Transformer中进行编码。最后将两种生成的实时评论表示输入到融合门结构中进行融合;第三部分是视频评论生成器,将第二部分得到的融合结果通过Transformer的解码器结构进行解码,最后根据概率生成实时评论。使用公开的Live-Bot数据集,并提出了密集评论生成训练模式。在此之上,对上述提到的所有模块进行了消融实验,以证明模块单元的有效性。除此之外,也对MMST模型中的超参数进行了敏感性实验,以让模型达到最佳效果。实验结果表明,文本过滤单元以及记忆单元均可以提高视频实时评论生成的效果。MMST模型在Live-Bot数据集上,评测指标高于基线模型。
其他文献
使用计算型存储设备加速SQL查询是一种有效的途径。由于当前计算型存储设备的处理能力有限,现有方案通常将能明显减少数据移动的过滤算子卸载到计算型存储设备中,然而将所有SQL查询中的过滤算子交由计算型存储设备直接处理会导致较差的性能。针对上述问题,提出了基于表数据特征的过滤算子动态卸载与执行优化(Dynamic Offloading and Execution Optimization,DOEO)方案
学位
图像传感器作为现代光机电系统的核心部件,与其他尖端光机电设备联用可以对图像数据实时采集、处理和传输来反馈控制光机电系统。然而,使用图像传感器进行图像采集时,目前主要还是以人工调焦为主,导致调焦精度和效率较低。此外,现有的图像传感器控制软件大多只支持单一设备的控制,无法直接与其他设备进行联用,造成数据通信效率低下。针对这些问题,本文探索了自动聚焦算法中的聚焦评价函数和聚焦搜索算法两大关键技术,在此基
学位
跨域推荐是致力于解决推荐系统冷启动问题的一类方法,核心思想是借助其它域中的知识为当前域的用户进行推荐。基于嵌入与映射的方法是一类可以利用重叠用户数据进行跨域推荐的方法。这类方法通常利用重叠用户在源域中丰富的交互行为进行偏好建模,然后将该偏好知识传递到目标域中。但此类方法并未考虑到用户目标域交互行为和源域交互行为的时序关系。另外,由于基于嵌入与映射的模型对重叠用户数据量的强依赖,会导致在用户交互数据
学位
神外手术机器人辅助治疗代表脑部疾病现代手术治疗的发展方向,具有稳定、高效、精准、微创等优点。术前规划是神外手术机器人辅助治疗的关键步骤,旨在确定手术目标与手术路径,为后续手术实施提供指导。其中,基于术前磁共振图像的脑标识点精准定位与脑部结构自动分割是关键使能技术,决定了术前规划能否帮助医生准确切除目标,并规避重要脑部结构。深度学习技术在脑标识点定位与脑部结构分割中的研究取得了喜人的进展,但现阶段仍
学位
急性脑梗是一种常见的脑血管疾病,具有高发病率、高致残率、高死亡率、高复发率和高经济负担五大特点。在基于核磁共振(MR)成像诊断急性脑梗病灶时,专家之间存在着较大的主观差异性。因此,开发基于深度学习的急性脑梗病灶自动分割算法,准确地分割MR图像中的脑梗病灶并精确地进行定量分析,对于急性脑梗患者的诊断、恢复和预后具有十分重要的意义。急性脑梗病灶的分割存在数据量小、MR伪影干扰大、标注工作量大等问题,且
学位
近年来,采取基于深度学习的方法从单张或多张二维图像中恢复物体的三维模型得到了越来越多的关注,是目前计算机视觉领域的研究热点。基于传统方法的三维重建算法存在需要人工参与,算法泛化性不高等缺点,因此基于深度学习的三维重建是目前的主流方法,虽然目前的方法已取得良好的效果,但在单视图重建时存在先验知识利用不足、图像特征提取不充分、网络易受不平衡数据影响等问题,造成重建的模型存在精度不足、细节信息丢失等现象
学位
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)是指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多个环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。因此,首要研究动机是对不同环境下的FPAA的性能进行自动化评测,旨
学位
数控机床作为生产的核心设备,发生故障将造成极大损失。及时诊断故障,恢复其运行十分必要。碎片化的故障维修日志中富含故障诊断知识,但检索耗时,难以利用。由此,提出利用知识图谱结构化的语义来描述零散的故障维修日志的思路,通过查询构建好的数控机床故障知识图谱,快速获得故障发生的原因。目前知识图谱构建方法中的复杂实体识别没有结合词汇信息,影响识别效果;复杂实体关系抽取方法,标签解码方式简单,忽视了实体和关系
学位
心脏冠状动脉钙化是导致心血管疾病的重要因素。实现CT图像中冠状动脉钙化灶的自动分割可以为医生诊断心血管疾病提供影像学的依据。针对冠脉钙化灶分割方法精度有待提高的问题,研究了基于深度学习实现非增强心脏CT图像中冠脉钙化灶自动分割的方法。针对冠脉钙化灶体积小、结构多样化和空间位置随机等特点,设计了以3D U-Net为基础网络,加入密集连接、残差连接、多尺度特征图融合以及空间注意力机制等改进机制的卷积神
学位
随着大数据时代的来临,数据爆炸式的增长,数据的安全共享与访问控制是保障数据安全隐私的重要一环。而伴随着用户对数据访问需求多样化,需要更精细粒度的访问控制,用于解决复杂业务场景中出现的问题。基于属性的访问控制(Attribute-Based Access Control,ABAC)通过将主体、客体、访问策略以属性的方式进行组织,可以匹配复杂的应用场景。虽然采用密文策略属性基加密机制(Cipherte
学位