基于视觉的文本生成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ming5583
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来伴随着网络上视频和图像的大量的生成,怎样能够让用户更加轻松和便捷的了解这些大量的数据成为了一个目前很大的问题。对于用户来说,最直接的方法就是用文本的信息将视频或者图片的信息进行一个简单的规纳和总结。而对于计算机来说,如果能够用完整的语句来描述视频图像中的具体内容,或者是能够回答出针对图片的一个相关的问题,我们才能说计算机是真正的理解了这个图像视频。基于以上所述,怎样将计算机视觉中的内容与语言文本的内容很好的连接起来是我们在计算机视频领域的一个重大的问题。越来越多的研究人员在这方面做了大量的工作。在此之上的研究一直保持着持续的进步,但是同时仍然有很多关键性的问题没有被解决。在本文中我们主要从几个不同的角度来探讨计算机视频和语言之间的关联。首先,直接的从视频或者图片生成一个描述性的语句是这之中非常关键的问题之一。目前来说,这个问题还有许多的限制,特别是针对视频文本的生成。已有的视频描述文本的数据并不足以支持生成良好的描述性语句,并且现在的方法大多都没有完全的考虑视频图像本身很多结构化的信息,只是单纯的把它们做为一个特征集合,失去了很多视频本质的结构信息。此外,给出一个特定的视频或者图像,对于给出的一个相关性问题,如何让计算机自动生成一个正确的回答同样是另一个关键性的问题。在这之中,最重要的解决的线索是什么呢?最后,我们怎么样才能很好有机的将图像视频和文本用一种最为直接明显的方式联合起来,从而展示给用户最感兴越的部分也是我们希望解决的一步。基于以上的观察与分析,这篇论文做了详实的在计算机视觉和文本之间的讨论与探究,主要有以下几个重要的进展:1.我们建立了一个新的生成视频描述文本的数据集。通过3,400小时个人工标注的工时,我们得到了大量丰富,标注好有组织性的视频和文本的数据组以便于算法的优化与提高。这个数据集包含了最为广泛的视频的种类和目前为止最大的标注句子的集合。我们在这之上组了丰富的基于RNN以及其变种的实验并进行了分析和比较。截至写作之时,我们的数据集已经有全世界超过100个单位在使用,论文引用量超过了 120。2.为了更好地探讨视频结构的特征在计算机视觉和文本之间的关系,我们进一步提出一种全新的多模态注意力模型机制MA-LSTM来生成视频文本。我们提出的MA-LSTM的方法可以充分的将视频的多模态的信息考虑进去,并且采用了多层的注意力模型机制来选择最有用的时间域的元素和模态。另外,我们还提出了一种child-sum的多模态融合单元将不同模态之间的信息合并形成更好的视频特征表达。3.通过增加基于图像的物体的具体检测和属性的识别,我们将faster-rcnn的网络结构加了我们的视频图像文本生成和视觉对话问答的任务当中做为我们研究的另一个重要部分。在加人物体和其属性的信息于其中之后,系统能够更好的理解图像中包括的各个部分让其对图像有一个更加深入的理解,这使得我们的视频图像文本生成和视觉对话问答都有了进一步的效果上的提高。4.为了更好地结合视觉内容和文本,给用户以更良好的体验,我们提出了一个新的系统模型方法用来建立了一个生动的故事板来展示事件的发生以及相关的图片。做为一个具体的应用,我们从搜索引擎的日志中充分的挖掘和归纳出各个社交事件,并且采用我们的算法得到与其最为匹配的图片来做为我们的故事板的部分。并且,我们还做了真实的手机上的应用来将这一结合更好的展现出来。
其他文献
本文合成了苯甲酰三氟丙酮(L)和三苯基氧膦(TPPO)、联吡啶(Bipy)、邻菲罗啉(Phen)、四甲基氢氧化铵(NMe4OH)与稀土离子的三合型、四合型配合物,对这些配合物进行元素分析熔点测定并系统地测定了配合物的热重
随着社会发展,土壤环境问题逐渐成为威胁国民经济的持续发展的严重阻碍,而耕地土壤的重金属污染是人们长期以来关注的热点问题。自上个世纪中期以来,人们围绕土壤重金属污染
世界养鹿业现存3种模式,以肉、茸为主打产品,在经济全球化和地区化中发挥着不可替代的作用。研究这些模式和产品以及知晓创新进展和彼此差距,旨在借鉴,对重振我国养鹿业的雄风,具
随着智能化办公的发展,投审稿系统的普及,很多编辑工作已能在网上完成。但对于稿件的编校过程,目前依然有很多编辑部依赖于纸质版编校,针对这个情况,笔者所在编辑部尝试了使
健康教育评价是病人教育程序的最后阶段。评价的目的是测定病人达到学习目标的程度,以便修订原有健康教育计划,改进健康教育工作。如何对健康教育效果做出客观的评价是一个值得
<正>Emotive Systems脑电波控制系统美国Emotiv Systems公司透露,他们将在今年晚些时候开始以299美元的价格销售一款EPOC神经头盔,该头盔可以帮助玩家通过大脑想法控制游戏。
期刊
在科技类翻译出版物(如中英文双语学术期刊、英译中的专著或教材等)的编辑加工过程中经常会出现中、英文标点混用的现象,有的标点使用不符合出版规范,同时从版式上看也不统一
奥沙利铂是继顺铂、卡铂之后的第三代铂类广谱抗癌药物,具有骨髓抑制轻微,胃肠道反应小,无肾、耳毒性等优点,其常见的毒性反应为周围神经毒性反应,国内文献报道发生率达90%。我科自
10月26日-27日,2018年首届全国新型职业农民发展论坛在山东济南举行。论坛上,由农业农村部科技教育司和中央农业广播电视学校组织编写的《2017年全国新型职业农民发展报告》(
随着人类平均寿命的延长,60岁以上的直肠癌病人所占的比例逐渐加大。文献报道,健康教育能提高肠造口病人生活质量。护士应根据老年直肠癌病人的特点及个体差异,进行针对性的健康