深度学习框架下的单事件视频自动描述方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:speedwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为融合了计算机视觉和自然语言处理这两个人工智能的主要领域,自动地为开放领域的视频生成自然语言描述这一任务引起了越来越多的关注。由于深度学习技术的发展,神经网络为该领域带来了很有希望的突破。不同于传统基于SVO(Subject,Verb,Object)的方法,在本文中,我们提出了两个基于深度学习的视频描述框架。在第一个框架中,我们利用训练好的卷积神经网络为每个视频帧提取视觉特征,然后将其输入到循环神经网络中为每个视频帧生成描述。为了获得最具有代表性的描述,我们设计了一个文本总结的步骤,通过对所有的句子排序来去除噪声的影响。此外,我们的框架还可以从预先标注好的图像数据中进行迁移学习的优点。在基准数据集上的实验结果证明了我们方法的有效性。在第二个框架里,我们着眼处理开放领域视频中复杂的动态信息。为了解决这个问题,我们提出了一种从序列到序列的端到端的视频描述模型。在这里,我们应用了已经被证明十分有效地LSTM作为循环神经网络的单元结构。我们的模型通过由视频帧序列和单词序列组成的数据对进行训练,因此可以自然的学到视频帧序列的模式和单词序列的模式,后者就是我们常说的语言模型。同样地,我们在基准数据集上验证了模型的效果。
其他文献
沪通长江大桥天生港专用航道桥为(140+336+140)m三跨连续刚性梁柔性拱桥,该桥3号主墩采用钻孔灌注桩基础、深水埋式承台。3号主墩基础采用双壁钢围堰方案施工,钢围堰长58.1m
随着海军入列舰船数量和大型装备的增加,现代装备保障服务业已经成为引领装备制造业产业升级和促进可持续发展的重要力量,对舰船装备技术保障能力的要求也在不断的提升。本文
通过对高锰钢化学成分的分析,论述了其化学成分及合金元素对高锰钢辙叉性能及组织的影响,为高锰钢辙叉的质量改进奠定了基础。
目的:观察前癃通胶囊对气虚血瘀型良性前列腺增生尿动力学的影响。方法:将60例患者随机分成治疗组和对照组,分别给予前癃通胶囊和癃闭舒胶囊治疗,观察I-PSS评分、尿流率、前
唐代汴河有两条,一条是沿泗水入淮的古汴水,一条是隋炀帝在大业元年开挖的大运河通济渠。涉猎汴水和汴水沿线城市的诗歌作品,在唐代约有121位诗人创作了301首。这些诗歌的主
为提高罗非鱼片热泵-微波联合干燥效率和产品品质,考察热泵干燥温度、热泵干燥风速、微波干燥时间、微波干燥功率对罗非鱼片含水率下降速率、产品复水率及感官品质的影响,讨
在文化强省的路上,湖南用新的成绩、新的数据,不断续写“文化湘军”精彩。新的征程上,湖南究竟要重点推进哪些方面的改革呢?
<正>0引言说话人识别又称声纹识别,是指通过获取说话人语音信号声纹特征后,自动识别说话人身份的技术。说话人识别系统[1]通常包含语音信号预处理、声纹特征提取、特征模型训
会议