结合视觉显著性及多特征表示的图像描述方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xiaodong0814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述的研究涉及计算机视觉、自然语言处理等多个领域的新技术和理论。计算机自动对图像内容进行自然语言描述,得到图像的语义信息,可用于基于图像理解的海量图像存储、检索任务中。近年来,该领域受到研究者们的广泛关注,并取得了巨大的研究进展,但由于图像内容复杂、文本表述多样化等原因,图像描述仍面临诸多挑战,如何合理、准确、全面的表示图像内容,并将图像特征准确的转换为文本表达都是待解决的问题。本文针对上述问题进行了较为深入的研究,主要研究成果如下:(1)提出一种基于多深度视觉特征表示的图像描述方法。传统的基于深度学习特征表示的图像描述方法,通常采用在ImageNet数据集上预训练以目标分类为任务的卷积神经网络来提取图像特征,此方法提取的特征主要为图像中的目标特征,不能包含图像中的全部信息,如场景及上下文等信息。因此,对于输入图像,本文首先采用不同的卷积神经网络模型分别提取图像的目标特征与场景特征,并将两者结合以充分的表示图像内容。然后,训练一个映射矩阵将图像的多深度视觉特征与文本特征映射到同一嵌入空间,使图像与文本两种不同模态的特征在维度及语义上进行对齐。最后,训练一个长短时记忆网络将嵌入空间中的图像特征逐个单词的转换为描述文本。在MSCOCO数据集上的实验结果表明,本文方法较传统的基于深度学习特征表示的图像描述方法在各评测标准上均有提升。(2)提出一种结合目标显著性的图像描述方法。图像显著性区域通常是人们感兴趣的区域,也是图像自然语言描述中的目标所在区域,目标显著性加权有助于提高目标特征在转换为文本时的响应。因此,对于输入图像,本文首先提取其显著图,根据显著性,对原图进行加权以突出图像中的目标区域。然后,本文以显著性加权图像为输入提取图像的目标特征,并以原图像为输入提取场景特征,将两个特征结合得到目标显著性加权的多特征表示。本文在MSCOCO数据集上对所提出的图像描述模型进行评估,实验结果表明基于目标显著性加权的多特征表示的图像描述方法对目标的描述更准确,且描述的图像内容更丰富。与同类方法相比,本文的方法在BLEU,METEOR等指标上均取得了较好的结果。
其他文献
在国际贸易领域,随着数量限制的取消和关税的降低,WTO成员国已逐步放弃通过限制进口数量和征收高关税为本国产品提供保护。为了限制进口保护本国产业,不少成员国,尤其是少数发达
没有人确切知道这个市场有多大,但所有人都知道它大得惊人。这也许出人意料:变化最少的产业,竟然是IT行业。当然,这里指的是商机。对大多数IT公司而言,智能系统的出现意味着
针对玉米种植普遍存在的选种难、盲目施肥等问题,基于多年实测土壤数据,根据示范推广经验,以养分平衡法为理论依据,采用土壤养分有效校正系数方法设计了一套玉米种植技术咨询
提出了煤炭企业在产业结构调整和对外扩张过程中应考虑的纳税筹划问题 ,重点应在产业选择、投资方式、新办企业的注册地点、企业组织方式等方面选择有利于企业纳税的方案。
主要采用消费总量预测法和趋势外推预测法预测水果消费量的趋势.结果显示,这两种方法所得到的消费量的趋势一致,数据基本吻合.中国居民对水果消费的趋势是递增的,即随着时间
<正>近年来,随着主动式的人像识别技术的飞速发展,相对于其他被动式的生物特征识别技术,比如指纹、虹膜、DNA等,人脸识别有着越来越大的市场需求。尤其2014年以来,国内知名的
机器人弧焊技术,因焊接质量稳定、生产效率高等优势,在汽车工业中得到广泛的应用。在建立机器人弧焊工作单元的基础上,本文分析研究了弧焊工作站运动仿真、离线编程的实际应
急性肺损伤(acute lung injury,ALI)是临床上常见的危重病症,发病率和致死率逐年增高,其本质为炎症反应失衡,引发弥漫性肺泡及肺血管内皮细胞损伤、肺组织水肿及肺不张等病理特
目的 :分析比较SARS病毒与冠状病毒科中病毒基因和蛋白的同源性。方法 :利用互联网、分子生物学软件对SARS病毒与冠状病毒科中病毒基因和蛋白同源性分析 ,构建蛋白进化树。结
小麦黄花叶病是由土壤真菌传播的一种病毒病,近年在临沂市的发生与危害呈逐年扩大的趋势。分析其流行的原因,主要与品种抗性、播期、气候因素等条件密切相关。并根据当地防治