从视觉到文本:图像描述生成的研究进展综述

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:arksh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。
其他文献
期刊
<正>国内经济下行以及疫情对银行业带来的负面影响将持续释放,与大型银行相比,农村中小银行面临的风险形势更为严峻。农村中小银行应调整风险管理理念、优化风险管理手段,提
随着工程领域对于材料性能越来越高的要求,镀层金属薄板由于具有耐腐蚀、耐磨损等特殊的功能,而被广泛地应用于汽车、造船、新能源等行业中。在镀层金属薄板被加工成零件的复杂
当前,人民币国际化已成为中国金融市场开放和完善的重要环节。实现人民币国际化对于个人、企业乃至国家都具有重要意义。首先,人民币国际化可以提高人民币的国际地位和在全球
独白文本的听力特性决定其教学方式应与对话文本有所区分。本文以一节初中英语听说课为载体,探讨如何基于听力文本解读框架、挖掘独白文本的语篇特性,并基于这些特性设计教学
中华文化积淀深厚,历史悠久,代表性的传统吉祥纹饰具有种类多、应用广等特点。本文总结了纹饰设计的特点,并结合当下首饰设计的具体应用,为更好地传承传统吉祥纹饰,关注传统
日前,国际城市论坛京津冀协同发展2015年年会在京举行。年会以“面向未来的京津冀世界级城市群”为主题,邀请了京津冀三地近300位专家学者参加。论坛上,北京国际城市发展研究院
该研究以在携程OTA的社交评论和图片为素材,采用文本词频统计的方法,辅以Python语言对文本情感倾向进行判断和情感词的统计,对杭州西湖玉古路亚朵S吴酒店认知形象和情感形象
目的:探讨超声对子宫肌瘤的诊断价值。方法:患者用经腹超声常规扫查法检查,了解子宫肌瘤病灶大小、回声特点及血流灌注情况。结果:笔者所在医院超声诊断子宫肌瘤患者150例,经手
目的:总结鼻内镜配合微波治疗鼻出血的临床经验。方法:应用鼻内镜对鼻出血患者进行检查,寻找出血点,以微波治疗。结果:52例患者经鼻内镜下微波治疗鼻出血.治愈48例(92.3%),好转3例