基于差异特征的图像变化字幕算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:gusterlyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,图像字幕任务被用于处理大量视觉数据。但是图像字幕只能概括性描述图片整体内容,无法定位两张图片的差异。而随着视觉数据多样化,大量相似图片出现,急需一个能够定位差异并描述差异的模型,图像变化字幕应运而生。图像变化字幕近几年得到了广泛研究,但是现有模型定位变化区域算法精度不高以及解码视觉数据的网络结构简单,以至于无法准确的描述出两张图片的区别。对此,本文提出了两个模型,均致力提高定位变化区域算法以及字幕解码算法的精度。针对现有模型存在的问题,本文提出基于双向差异定位与语义一致性推理的图像变化字幕算法模型(BLCC)。该模型针对检测差异算法精度不高问题提出双向差异定位模块,提高了检测变化的精度。针对字幕解码网络精度不高问题,提出语义一致性推理模块。利用该模块保证视觉数据与文本数据的一致性,提高了模型的精度。本文通过三个数据集上进行实验,从定性和定量两方面验证了该模型的性能。在此基础上,本文进一步提出基于语义关系感知的图像变化字幕算法模型,该模型首先引入自相关和互相关算法,为变化前后两张图片提取了更加丰富的语义信息,有效提升了检测差异算法的准确性。进一步地,该模型结合词性分析算法,为生成的每一个单词设置先验信息,实现了非视觉性单词使用更少的视觉信息,相较于BLCC模型,该模型有效提升了应对混淆干扰因素和场景变化问题的鲁棒性。
其他文献
脑肿瘤是一种致死率极高的高危疾病,需要通过手术切除才可以有效治愈,因此肿瘤的位置以及尺寸大小等信息对于医生至关重要。核磁共振成像是目前对于脑肿瘤无创显像最常见的技术,在不同模态MRI图像下可以呈现出不同的特征。为了减轻医生负担,研究人员尝试借助计算机技术实现对脑肿瘤区域的精准分割。因此,本文以脑肿瘤MRI图像为对象,利用深度卷积技术开展了如下研究:(1)提出了基于感受野增强的脑肿瘤病灶区域分割模型
学位
正则化超限学习机(RELM)因其具有快速的训练速度、良好的泛化性能以及更少的人工干预,近年来已被广泛的应用于大数据、计算机视觉、语音识别等领域。然而RELM采用的二次型损失函数对于离群点的鲁棒性较差,而采用具有较强鲁棒性的非二次型损失函数时,会使得RELM的训练速度的优势丧失。尤其在大数据的情况下,如何在保证RELM训练速度的同时,提升RELM的鲁棒性是一个严峻的挑战。针对该问题,本文首先比较几类
学位
在工业生产过程中,工业报警系统能够对过程变量进行分析处理,以研判关键设备的异常状态,并发出警报以便能够及时对其采取维护措施,以免出现重大损失。报警系统的性能指标可以由误报率(FAR)、漏报率(MAR)、平均报警延迟(AAD)来评估。传统的报警器设计方法通常是在获取过程变量概率分布特征后,理论推导出三个性能指标的概率表达式,然后基于这些概率模型优化报警器的阈值等参数,从而设计出满足性能要求的报警器。
学位
研究背景:高血压是全球范围的重大公共卫生问题,已成为人类主要的死亡风险因素[1]。我国人口数目庞大,经济发展受限导致医疗资源稀缺,目前高血压等慢性病的防治已逐渐下沉至社区诊室。有研究[2]显示,社区高血压患者自我管理仍处在一个相对较低的水平。很多患者尚不能正确对待高血压,包括降压药物的合理选择,服药时间的正确把握,服药疗效的及时回馈,靶器官损害的早期发现,导致血压控制欠佳,心脑血管不良事件增多。本
学位
行人重识别是智能视频监控的关键技术,对于公共安全和预防犯罪有着重要意义,其任务是找出不同摄像机拍摄的图像中同一行人的图像。基于监督学习的行人重识别已经可以达到理论精度上限,但是将原模型迁移到新场景中需要额外成本重新进行身份标注。因此,通过有标注的源域数据集进行预训练,将预训练模型迁移到无标注目标域数据集,提升目标域性能的无监督域适应行人重识别更具有研究价值和实际意义。针对无监督域适应行人重识别中两
学位
近年来,深度学习受到广泛关注,但是也显露出一个缺点,即模型通常需要依赖大量的数据才能获得较好的性能,然而有时要获取这种数量的数据极为困难。因此,小样本学习逐渐成为计算机视觉领域重点关注的研究课题。基于这个背景,本文针对小样本学习中基于度量学习的原型网络算法展开研究,并在国际公开数据集上进行了实验。主要研究内容如下:(1)针对度量模块中样本均值特征对原型表示的贡献不均衡问题,提出了利用权重和转导来对
学位
建筑设计与园林景观设计有着非常密切的关系,通常在景观设计途中,建筑设计以人文特色以及艺术魅力的特点,极大地影响着景观设计的开展。所以,相关设计师需要了解大众对园林景观设计的真实需要,这样才能够展现出建筑设计的特殊性,最后达到景观设计和建筑设计两者之间的完美结合。在此基础上,概述了景观设计与建筑设计融合的现状及其相互关系,并研究了景观设计与建筑设计融合的措施。
期刊
LLC变换器由于具有高效率、高功率密度等优点已经成为了应用最广泛的电力电子变换器之一。目前大功率LED的驱动电源基本由PFC变换器和LLC变换器组成。LED驱动电源有两大要求,即高效率和宽调光范围。其中高效率保证了变换器产生的热量更少、温度更低,从而延长变换器的使用寿命;宽调光范围保证了LED的亮度能在较大的范围内变化,从而适应各种不同的照明场合。然而高效率和宽调光范围往往不兼容,通常LLC变换器
学位
颅内动脉粥样硬化性狭窄(ICAS)是导致缺血性卒中的重要原因之一。症状性ICAS有较高的卒中复发率,且与高加索人群相比,中国人群症状性ICAS患病率更高。中国血管成形及支架置入术治疗症状性重度颅内动脉狭窄(CASSISS)研究改进了研究设计方案,基于中国人群重新评估了血管内治疗ICAS的安全性和有效性,为ICAS的治疗提供了有力的证据。该文从循证医学证据、适应证选择、介入治疗手段以及未来的临床研究
期刊
随着机器视觉和机器人技术的迅速发展,越来越多搭载视觉功能的AGV应用到仓储物流行业,进行货物搬运工作。如何利用计算机视觉使得机器人在集中库位环境下,能实时感知每个库位的状态,从而保障在货物搬运过程中目标库位规划的合理性与有效性,同时使得空闲库位利用率最大化的研究具有重要的应用价值。因此,本文设计一种基于RGB相机的库位标定与检测系统,可在CPU与GPU端稳定运行,为AGV调度提供库位状态输入,进而
学位