基于半监督学习的图像自动描述技术研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:i_love_snj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像自动描述是一种跨模态转换的技术,它可以建立图像和文本之间的桥梁,让机器具有理解能力,对一张图片的内容进行详细地描述。人工智能技术的研究核心是如何让机器像人一样进行思考和决策,而让其具备“理解力”则是第一步。纵观整个图像自动描述技术的发展史,研究人员的研究重心都是围绕如何生成准确、连贯且贴合图片内容的句子而展开的,而关于图像描述技术的实际应用研究却很少。究其主要原因是这些模型都过度依赖于image-sentence paired数据集,只要输入的图片与数据集中的图片不相关,生成句子的效果会很差甚至无法输出一个完整的句子。为了加速图像自动描述技术应用于实际生活,在不折损模型性能的前提下提升模型的泛化能力十分重要。为了解决上述问题,本文在基于半监督学习的方法和生成式对抗网络的框架上设计了一个新的图像自动描述模型SVGAN(Semi-supervised Generative Adversarial Networks),该模型主要由图像编码区、图构建区和对抗训练区三个部分构成。本文的主要工作如下:(1)为了获取高质量的图像特征,对编码区进行了重新设计,在原有卷积神经网络的基础上设计了一个并行目标检测模块,从不同的尺度提取出图像特征,充分挖掘图像中的实体及其属性的相关信息。(2)为了增强提取到的图像特征信息,设计了一个图构建区作为特征映射的过渡区域,对图像特征信息进行二次编码。通过将实体、实体的属性信息和实体之间的关系构建图数据,能更好地保留图像原始语义信息。(3)为了提升图像自动描述模型的泛化能力,搭建生成式对抗网络,利用少量配对数据和大量非配对数据对其进行半监督训练,同时使用强化学习的策略梯度方法解决生成式对抗网络生成离散文本的问题,提高模型的鲁棒性和泛化能力。经过实验测试,SVGAN模型在BLEU-n(n=1、2、3、4)指标上得分分别为:0.625、0.467、0.291、0.22,在CIDEr指标上得分为0.732,且在能衡量句子语义的SPICE指标上得分为0.196。经过对比分析,SVGAN模型得分均优于使用无监督学习的模型,并且跑分接近目前大部分基于有监督学习的主流模型。
其他文献
在目前数字化信息社会中,随着网络和传播技术接入家庭空间以及网络时代的迅速崛起,代际间的数字鸿沟逐步扩大,家庭代际关系的传统维系方式正逐步被新的多元化手段取代。单向的家庭教化模式在自下而上的“反向社会化”过程中逐渐瓦解,新型亲子关系由此建立。伴随着互联网成长起来的“网络原住民”在家庭信息交换中扮演着越来越重要的角色,他们拥有打开互联网世界的钥匙,在代际传播中逐渐居于主导地位,借助所获信息向亲代进行“
学位
论文以塔里木盆地西北缘奥陶系大湾沟组碳酸盐岩为研究对象,以沉积学、古生物学与沉积地球化学等理论为指导,结合前人在构造、地层与古生物等方面的最新进展,采用野外露头、室内鉴定分析、沉积地球化学测试分析等综合分析方法,在大湾沟组地层划分研究基础上,利用点计数法、聚类分析、显微薄片微相分析,对研究区大湾沟组进行定性、定量微相划分及特征分析。根据沉积相识别标志,结合岩石类型与微相序列组合等特征,对大湾沟组沉
学位
青少年犯罪已经成为全社会重点关注的社会现象,作为国家与民族希望的青少年群体理应在呵护与关爱下成长。然而青少年犯罪案件数量常年居高不下,媒体对青少年犯罪的新闻报道也日益增多。传媒机构作为社会的“瞭望台”,肩负着监视、预警的社会责任。伴随互联网信息技术的发展,媒介环境有了巨大改变,各类媒介都试图通过新的方式获取更多受众。青少年犯罪新闻由于其报道对象及内容的特殊性,受到了众多媒体“青睐”,关于青少年犯罪
学位
二次元文化作为一种青少年亚文化,在国家对动漫产业的大力扶持、文化商业资本的投入与运作、中外二次元文化的积极交流与传播等多种因素的影响下,逐渐成为我国社会文化的重要组成部分。二次元粉丝被认为是“积极的受众”,有着超越一般受众的创造力和传播力,他们的着迷行为有望“激励他们去生产自己的文本”。二次元粉丝大多是青少年群体,作为伴随着互联网一同成长起来的数字原住民,他们在网络空间表现出较高的媒介素养,其文化
学位
随着互联网的加速发展以及直播经济的火热,观看直播带货已经成为许多人休闲时间的活动内容。带货主播这一群体也随之走入观众的视线,他们在直播经济时代发挥着重要的作用,也引起了媒体以及社会的高度关注。本文以“读秀”报纸数据库为基础,通过梳理其中关于带货主播的新闻报道,探究其对带货主播的形象建构并进行评价,了解优势以及不足之处。最后从媒介及社会责任角度探究更好的塑造带货主播媒介形象,促进带货主播群体良性发展
学位
后疫情时代,并不是我们所想象的疫情完全消失,一切恢复如前的状况,而是这样一个时代:疫情时起时伏,随时都可能小规模爆发,从境外或外地回流以及季节性的发作,而且迁延较长时间,是长时间处于与疫情对抗对冲的时代。网络直播是基于互联网的工作机制,通过互联网媒体的联系将当下发生的人事物及时地通过终端呈现给互联网前的各位受众,满足用户的互动性需求。信息交互是直播的制胜法宝,它可诱导用户对直播产生较强的黏性。直播
学位
随着移动互联网时代的来临,数字技术的应用不仅变革了信息传播方式,而且改变了人们的日常生活与行为习惯,大众随之进入了碎片化、娱乐化、互动化的移动信息时代。移动互联网平台解构了传统传播格局,伴随着信息传播方式的转变,受众与信息之间的传播关系也不同于以往,移动互联网时代受众接受信息和传播信息不仅及时性强,而且与传播者的交互性大大增强。受众主体性地位的确立所激发的自媒体兴起,以及移动互联网开放互动等特点的
学位
伴随城市与媒介化社会的高速发展,城市形象传播具有了多重意义:优化外宣手段、吸引人才投资、突出城市个性、扩大名声美誉、引领生活风尚,以传播的力量为建设美好城市赋能。如今,传播资源不再由少数者垄断,传播门槛降低,使传播者与受传者之间严明的界限被取消。众多社交平台使用者和自媒体人,发布着海量的城市相关内容,传播着城市形象。相对于媒体机构或组织,这类传播缺乏系统性、长期性的传播目的,信息碎片化特征更为明显
学位
在互联网时代的当下,借助网络平台优势,以广大网民为传播对象的科学普及活动已成为我国科普传播的重要方式之一,尤其在新冠疫情频发的特殊时期,网络科普,特别是占据主导地位的主流网络科普传播更是发挥着不可替代的作用。目前,我国网络科普传播还处于发展期,各类科普网站、科普APP、科普公众号等也在探索完善阶段。学界对网络科普的研究多集中于某一具体领域,或局限于传统的“5w”模式分析科普传播,忽视了从编码解码理
学位
互联网发展到今天,已经走过了野蛮生长的阶段。无论是用户还是内容生产者,都在潜移默化中转变着自己在这个数字时代中的身份。媒介环境因为短视频平台的兴起发生着肉眼可见的变化,公共舆论场也随着用户的大量涌入逐渐在短视频平台落地生根。由于其自身的特点,短视频平台上充斥着大量具有娱乐性、低俗化、难辨真伪特点的视频内容。海量的信息洪流令人眼花缭乱,筛选和净化机制的缺乏令公共议题的讨论空间受到挤压,不得不让位于娱
学位