图像文本描述生成方法的研究与应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:cairinga
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像文本描述生成旨在将图像翻译成完整的自然语句。它涉及计算机视觉和自然语言处理。一方面,尽管图像文本描述生成在深度神经网络的快速发展下取得了良好的效果,但过分追求文本描述生成模型的评价结果使得生成的文字描述在实际应用中过于保守。有必要增加文本描述的多样性并解释先前的知识,例如用户最喜欢的词汇和写作风格。另一方面,图像文本描述生成模型通常需要大量图像句子对用于训练。因此,如何减轻对图像句子数据集的依赖,学习不同数据集之间的域差异并利用其他可用的数据注释来很好地训练图像文本描述生成模型也变得越来越重要。然而,实际上,获得足够的带有文本描述标签的图像数据集是很昂贵的,这使得图像文本生成模型在描述训练语料库之外的对象,即新颖对象(新颖词汇)的能力上受到限制。针对图片文本描述生成任务上存在的个性化,域差异和新颖词汇(Out of vocabulary)的问题,本文主要完成了以下工作:(1)针对个性化:本文提出了可以生成句子的个性化图片文本描述生成,用最优先的单词表达来描述用户自己的故事和生活感受。所提出的方法可以通过将用户ID嵌入为兴趣向量来灵活地建模用户兴趣。通过对每个用户的专属信息,如图片特征、用户ID、用户内容,进行兴趣建模,构建了用户的特色兴趣向量。通过用户兴趣向量并结合自顶向下的注意力机制可以更好地指导语言模型的训练,生成符合用户风格的文本描述语句。该方法的有效性在Instagram和Lookbook平台的数据集上得到了验证。(2)针对域差异:本文提出了用简单而有效的域不变约束来学习可应用于不同数据平台的跨域文本描述生成模型。通过为模型构造以距离度量为核心的有效域约束,可以在隐空间最小化源域和目标域句子级别特征之间的域偏移,学习共享子空间特征,同时提出的域共享字典方法旨在丰富不同数据域的句子生成。为了进一步学习不同数据域的私有数据特性,本文还提出了通过域分类器机制指导语言模型生成特定数据域的文本语句。实验结果证明了方法的有效性。(3)针对新颖词汇:本文提出了融合复制机制的语言模型在食物分析数据集上的应用。该模型可以直接“复制”图片生成的候选词中的合适词汇(包括某些从未出现在配对的图片文本数据集中的新颖单词)以构建输出语句,从而实现对新颖单词的描述生成。通过将复制机制嵌入到传统端到端的序列生成模型中,并辅助有效的目标检测模型,有助于语言模型对新颖词汇描述生成学习。实验结果证明了方法的有效性。
其他文献
我国是世界上高原海拔最高、人口最多的国家。随着高原地区经济、社会的迅速发展,急进高原的人数与日俱增,缺氧导致的急性高原病(Acute Mountain Sickness,AMS)成为急进高原
句法分析是自然语言理解的一项基础技术,是迈向深层语言理解的基石,在语义分析、问答系统、搜索引擎、信息抽取和检索等许多自然语言处理任务中不可或缺。随着信息技术的不断
金属卤化物钙钛矿发光二极管(PeLEDs)是一种极具发展前景的新型光源。近年来,通过控制化学计量比、钝化缺陷和尺寸工程等多种策略对钙钛矿微观结构进行调控,极大地提高了钙钛
由于地铁交通建设对社会经济影响深远、建设规模较大、对施工技术要求较高等原因,对地铁施工项目的安全管理也提出了更高的要求,需要站在更高的角度对地铁施工项目进行管理。
开展政治生态分析研判是全面从严治党的重要抓手,聚焦"关键少数",以党的政治建设为统领,查找短板弱项,提出加强和改进的措施,为推进全面从严治党责任落实落细明确努力方向,有
在软件开发过程中,程序错误是不可避免的,实际上,一个软件中可能会发生多个错误,解决这些错误主要包括两个步骤:错误定位和程序修复。当前错误定位的有效性和自动程序修复(Au
以四川省彭州市某大型深基础工程为依托,利用FBG传感技术开展锚杆极限承载力试验,并结合数值模拟对锚杆应力分布特性进行研究。本文主要进行了以下工作,并取得了成果:1.以四
辐射源定位是一种较为常见的通过接收并处理辐射源目标发射的信号获取目标位置的手段。近年来随着相关研究进展,取得了许多的成果,但还有着许多问题等待探索。比如实际定位过
有机场效应晶体管(OFETs)由于其低成本、可溶液法制备、可柔性化等优势,在有机光电器件领域具有广阔发展前景。虽然OFETs器件迁移率已经从10-5 cm2 V-1s-1提高至超过40 cm2 V
近年来,图像语义分割已经成为计算机视觉领域中最活跃的任务之一,其目标是将图像像素分为具有语义意义的区域。随着计算机硬件的发展,机器学习算法逐渐被深度学习方法所取代,