图像语义理解算法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:huangyqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义理解算法主要通过给图片生成一句文字描述来深入挖掘图片中的语义信息,该任务是一个融合计算机视觉和自然语言处理技术的研究课题,在图像检索、儿童教育、医学影像分析、人机交互等领域都有着广泛的应用。受机器翻译领域编解码框架技术的影响,当前的图像语义理解算法主要使用编解码框架进行研究,使用编码器提取图像特征,使用解码器将提取的图像特征转换成文字描述。本文将基于编解码框架对图像语义理解算法展开研究,针对图像描述领域较为突出的问题分别从编码端和解码端进行改进,本文的主要研究内容和贡献如下:1.针对当前基于目标检测的编码器提取特征容易忽略背景和一些细节信息从而导致生成的描述不能完整表达图片内容的问题,本论文使用Res Net101网络单独提取图像全局特征,进行多尺度池化充分挖掘全局特征的多尺度和多通道信息之后,将该特征和基于目标检测的图像局部特征进行融合,本文设计了基于注意力机制的融合方法,在生成每个单词时,系统可以根据每个特征对单词的重要性自适应的给全局和局部特征的分量分配权重,同时也避免了全局特征可能引入噪声的问题,为了解决图像描述领域的“曝光偏差”问题,使用强化学习的方法对设计的模型进行了训练。最后通过在MSCOCO描述数据集上面的定量实验,验证了改进的LGF-IC算法在CIDEr评估指标上面对比top-down算法提升了1.42%。2.针对图像描述领域存在的解码器表达能力不足,生成的描述语句表达不够细腻的问题。本论文受机器翻译领域推敲网络的启发,以具有两层LSTM网络的top-down解码器为基础,设计第三层LSTM网络作为推敲网络对前两层的输出进行打磨和润色,同时引入自适应注意力机制使得系统在生成单词时可以自适应的选择依赖图像特征或上下文语义,在训练阶段以多个评价指标的线性组合作为强化学习的奖励进行训练。最后通过在MSCOCO描述数据集上面的定量实验,验证了改进的TDN-IC算法在CIDEr评估指标上面对比LGF-IC基线算法提升了4.10%。3.使用本文改进的算法实现了一个基于web端的图像检索系统,该系统包括后端和前端两部分,后端主要使用本文改进的算法给图片自动生成文字描述,前端主要通过提供可视化的界面与用户进行交互,该系统可以实现文本搜图和以图搜图的功能。最后对该系统进行测试验证了系统的实用性。
其他文献
我国监察体制改革经历了初步探索到全面深化的过程,《监察官法》就是这一改革过程中新的里程碑。《监察官法》的出台使得我国的制度反腐又开创了新的篇章,同时也为监察官队伍的规范化、法治化建设提供了有力的制度保障。在监察体制大力改革的背景下,大多数的改革重心在于如何确保监察官合法合规的行使职权,但是监察官的责任追究制度建设始终存在欠缺,因此难免会存在权责失衡的现象。于是,监察人员由谁追责,如何科学合理追责,
学位
目的 探讨肿瘤科护士死亡应对能力和职业应对自我效能对职业倦怠的影响。方法 采用方便抽样法,于2021年9—11月抽取无锡市5家三级医院182名肿瘤科护士作为调查对象,采用死亡应对能力量表、职业应对自我效能量表和职业倦怠量表进行调查并分析。结果 肿瘤科护士死亡应对能力得分为(42.84±6.46)分,职业应对自我效能得分为(33.46±5.24)分,职业倦怠得分为(62.18±10.42)分;不同年
期刊
仲裁庭既是仲裁案件最终的裁决者,又是推进仲裁程序进程的执掌者,仲裁裁决的公正性直接影响当事人对仲裁作为纠纷解决机制之一的满意程度。然而,要实现仲裁结果的公正和公平,则应当保护当事各方在仲裁庭组成中的程序权利。众人周知,仲裁追求的价值目标中当事人意思自治是首要目标,而在仲裁庭组成中,保护当事人程序权利又是仲裁首要价值目标的具体体现。但是,我国在仲裁庭组成的规定中却并未最大限度地保护当事人的程序权利。
学位
随着人们安全意识的逐步提高,基于视频监控的人体异常行为识别技术研究得到了广泛关注。人体行为识别作为计算机视觉领域的研究热点之一,相关的研究成果不断增多。总体可以将这些人体行为检测算法划分为两大类,首先是传统的检测算法,此类算法依赖于手工方式提取特征,另一类则是近年来备受瞩目的基于深度学习方法的自动提取特征。由于传统的视频监控系统,需要大量的人力财力支撑,耗费大量时间去做异常筛选,已经不满足当下社会
学位
与传统有源雷达相比,外辐射源雷达(即无源雷达)利用非合作辐射源进行探测,具有无需频率分配、组网灵活、隐蔽等特点,在军事或民用领域有广阔前景。在外辐射源雷达系统中,参考波形估计和目标定位技术是需要重点研究的关键技术。然而,现有的参考波形估计和目标定位技术通常需要独立的参考通道获取辐射源信号。但是在实际应用中,一方面,参考通道的存在会增加外辐射源雷达系统复杂性和成本;另一方面,直达波可能会被阻碍,这将
学位
民航业的快速发展,航班数量的增加,为机场安全的保障工作提出了更高的要求,变化检测、目标跟踪等计算机视觉技术被广泛的应用于现代机场场面监视任务中。变化检测的目的是将视频按帧分割成为运动的前景和静止的背景两部分,而机场场面需要监视、引导的正是入港与出港时正在运动的飞机,因此变化检测非常适用于机场智能化应用的开发。根据监督等级对变化检测算法进行划分,可以分为基于统计方法的无监督变化检测算法和基于深度学习
学位
图像超分辨重建旨在从低分辨率图像中重建高频细节,广泛应用于视频监控、医疗影像、卫星监控等领域,同时也是分割、分类、检测等任务的研究基础。由于低分辨率图像和高分辨率图像之间存在一对多的映射关系,图像超分辨是一个极具挑战性的任务。为此,研究者聚焦于特征提取、细节重构和先验引入三个方面设计多种超分辨方法,并将超分辨方法建模为低分辨率图像与高分辨率图像之间的高频残差预测问题。然而,其仍然存在以下三个难点:
学位
在行政公益诉讼中,诉前程序有其特殊的法律价值,其主要内容是检察机关监督行政机关依法履行职责,以保障生态环境和自然资源领域受到侵害时能及时得到恢复。如果诉前程序中的检察建议没有对行政机关依法履行职责起到监督、督促的作用,那就要启动诉讼程序。检察机关提起公益诉讼制度从试点工作到正式建立实施的时间并不长,相应的配套制度还不够完善以及相关概念的不明确和相应规定的缺失,导致该项制度在司法机关、行政机关和法学
学位
“实际控制人”自被引入公司法以来,关于其概念的争议就未曾停止,究其原因,乃是这一出自上市公司领域的概念有其时代的局限性,随着公司治理形态的不断发展,应重新界定实际控制人的概念。作为公司的“国王”,从财务经营、人事任免,到公司的重大决策,都要受实际控制人支配。与《证券法》关于实际控制人的规定相比,《公司法》对实际控制人的规制可谓匮乏;而与公司股东等积极参与者不同,债权人往往处于更加消极的地位,合法利
学位
当前,我国对于非物质文化遗产代表性传承人的管理已经从广泛申报认定到科学动态管理,国内逐渐出现取消代表性传承人资格的退出案例,然而这些退出实践相比于庞大的四级代表性传承人系统而言,毕竟是很小的一部分,对于代表性传承人退出机制的法律研究还很缺乏。鉴于此,本文通过梳理国家层面和地方层面关于代表性传承人退出机制的立法规定和执法实践,总结退出机制的法律现状,发现目前主要存在退出机制适用不规范、相关程序不明确
学位