基于文本和语义的图像描述质量评估研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:sunxunjun2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术的快速发展,自然语言处理和计算机视觉在理解图像和生成文本方面取得了巨大的成绩,且具有广泛的实际应用价值。机器对图像的理解和识别离不开图像标注数据,现有的图像标注数据有人工标注和机器标注两种。由于机器学习对图像标注数据的质量和数量要求都比较高,所以训练高效的机器图像标注模型和评估图像标注数据的质量是目前图像描述领域重要的两个研究方向。当前,常用的图像描述质量评估方法从本质上讲都是基于文本层面的,像BLEU和CIDEr等评估指标都是通过机器描述和人工描述间的文本匹配来评估描述质量。这导致了图像本身与对应图像描述之间匹配关系的缺失,外加自然语言本身具有的模糊性,对图像描述质量评估的标准性就更加让人怀疑。针对上述问题,本文首先提出了一种基于机器学习的图像描述质量评估框架RCWS(Region Rank Similarity-Consensus-based Image Description Evaluation and Weight Distribution Similarity-Semantic Propositional Image Caption Evaluation,RCWS),该框架不仅考虑了图像本身与对应机器描述内容的关联关系,还考虑了机器描述与人工描述之间的匹配程度。其基本思想是以人工图像描述数据为标准,以机器图像描述数据为研究对象。其次,通过对现有图像描述数据质量评估方法的分析和梳理,将区域排名相似度和权重分布相似度应用到图像描述质量的评估中,对基于文本的图像描述质量评估指标CIDEr和基于语义的图像描述质量评估方法SPICE进行了改进。本文以人工图像描述数据为标准对机器图像描述数据的质量进行评估。通过MSCOCO、Flicker 30k和Flickr 8k三个数据集,对提出的RCSW质量评估框架、评估模型及改进后的图像描述质量评估指标R-CIDEr与W-SPICE的可用性和有效性进行了验证。实验结果表明,改进后的R-CIDEr和W-SPICE评估指标提高了多个数据集的评估性能,在文本/语义一致性方面都优于传统评估指标。该项成果对人工智能识别、图像描述质量评估以及机器图像描述模型的训练具有良好的参考价值和实际应用价值。
其他文献
本论文旨在探讨苏轼黄州时期诗歌创作样貌。在人生境况的变化下,苏轼的诗歌创作也出现转折点,内容偏向、风格特色等都“为之一变”,在整个苏诗历程上处于承上启下的作用。全文共分为五个部分进行探讨,梳理如下:第一章为绪论部分。第二章主要通过苏轼黄州时期诗歌创作,探讨诗人在贬谪中的生存状态。第一节展现苏轼由地方官到谪臣的身份转换下的心态,由幻灭、纠结到实现短暂认同。第二节论述苏轼在身份认同下寻求着消解悲剧意识
蛋鸭的生产性能受多种因素的影响,包括品种、营养和饲养管理等因素。近些年,随着网床平养模式在蛋鸭养殖中的推广与应用,蛋鸭养殖集约化和规模化程度也逐渐增加。动物群体饲养规模影响到动物的生长发育和生产性能,也是动物健康和动物福利的关键参数之一。但目前,关于群体规模大小对家禽生产性能影响的研究主要集中在蛋鸡上,对蛋鸭生产的影响还不较少。本研究拟以金定鸭作为研究对象,在饲养管理及养殖密度等条件一致的情况下,
社会网络是一种个人或集体之间为了交换信息而组成的关系网络。社会网络存在社区结构特性,网络会根据其本身的拓扑结构被划分为多个社区。社区之间是通过桥节点联系的,因此需要在桥节点中寻找关键节点,通过保护关键节点从而保障社会网络社区间的连通。本文针对社会网络社区结构特性,在社会网络中评估关键节点。论文根据社会网络的社区结构特性提出了一种基于桥节点的社会网络关键节点评估方法。本文构建了社会网络场景,并采用N
随着模式识别和人工智能领域的不断发展,人脸识别技术亦日趋成熟,而人脸表情识别与人脸识别技术息息相关,其已逐渐成为人工智能、模式识别和人类情感理解等领域的研究热点之一。传统的人脸表情识别算法依赖于人为设计的特征,算法设计周期较长且识别率有限。神经网络识别算法依赖于自身的网络架构和数据集样本训练的模型,在经过大量的人脸表情数据集训练后,识别精度较传统算法更高,但会耗用更多的计算资源且延缓网络模型训练时
本论文是在国家自然科学基金(No.51675258)资助下,针对传统的基于平行因子(Parallel Factor,PARAFAC)的盲源分离(Blind Source Separation,BSS)方法复杂度高,运行时间长的不足,提出一种自适应PARAFAC的盲源分离方法。通过仿真分析和实验来验证所提方法具有可行性。主要研究内容如下:1.传统的基于PARAFAC-BSS的多故障盲源分离方法是通过
人类为了获得电能创造了各种发电方式。利用核聚变和核裂变产生的巨大能量来发电则是当今世界各国的主要发电方式。然而这种发电方式是非常危险的,核电站内具有很强的辐射,对人体的危害极大。核电站有着大量的巡检工作需要来完成,以保证仪器的正常运转和环境的清洁。因此,巡检机器人被广泛和大量的使用来代替人类进行核电站内的巡检工作。本课题来源哈尔滨工程大学机电工程学院发展基金(代码:002070300147)。本文
近年来,复杂网络的社区发现由于可以发现隐藏在网络中的有用信息,在社交网络、电子邮件网络、引文网络和生物网络等应用领域上引起了广泛的关注。在社交网络中,社区发现可以用于预测推荐系统中用户之间的信息传播或预测行为之间的缺失环节,由于大规模的在线社交网络已经深深地融入到我们的日常生活中,从中发现有意义的社区对于各种目的的研究和应用变得至关重要。本文基于结构熵对社区结构在内聚度度量、耦合度度量、社区发现等
随着时代不断发展,人们对数据检索的效率和准确程度的关注不断提高。现实世界中数据的维度往往比较高,传统的索引方法,例如哈希索引,虽然作为一种高效的信息检索方式被广泛应用于各类信息检索系统中,但目前已经越来越难以应对复杂的情况。如何高效而且有效的进行数据检索成为热门话题。为了保证检索效率,牺牲一定的准确度来换取更高的查询效率成为一种可行的方法。近年来,随着人工智能和深度学习的发展,机器学习在越来越多的
近年来,碳材料由于其在催化、载体、储能、吸附等各个领域具有普遍的功能,受到人们的广泛关注。它们的特殊微结构,低密度和可调节的介电性能也使其成为高性能微波吸收材料的热门选择,以缓解由电磁污染引起的一系列问题。因此本论文选取金属有机骨架In/Sn-MOFs材料为前驱体制备新型多孔碳电磁波吸收材料,采用三种方法改善其吸波性能。1.本文首次将In/Sn-MOFs(Sn掺杂到In-MOFs中)直接热解制备了
本文针对现行超级电容器的不足(如功率特性差、体积性能差、使用寿命有限等),对超级电容器用活性炭(AC)电极进行了研究。首先,采用原位包覆合成法将二维还原氧化石墨烯(rGO)对AC进行原位包覆以制备AC/rGO复合材料;然后,引入多元且不同维度的高导电性纳米碳材料(零维导电炭黑SP、一维碳纳米管(CNFs)及碳纳米纤维(CNTs))与AC/rGO进一步复合改性。通过制备工艺改进、各组分材料比例优化,