基于无监督方法的图像描述算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:duan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是一项将图像与文本相结合的任务,主要目的是利用计算机自动生成图像对应的描述性语句。在视力缺陷人群辅助系统、信息检索和智能交通等领域有广泛的应用。目前较为成熟的图像描述模型都是采用有监督的方法,这种方法受限于高昂的人工成本,无监督方法的兴起为图像描述提供了一种新的思路。本文借鉴无监督方法的思想,融合深度学习相关技术对图像描述任务进行研究,主要工作如下:第一,提出基于生成对抗方法的快速无监督图像描述模型GA-based UIC。考虑到有监督方法在现实问题中受限于特定的数据集、需要耗费大量人工成本,本文借鉴无监督方法的思想提出不依赖于数据集的无监督图像描述模型:采用生成对抗式文本生成方法,用参数更少的循环神经网络GRU构成解码部分的生成器和判别器,该方法可以使模型达成无监督的目的,有效避免大量的数据集标注工作;编码部分是卷积神经网络,将目标检测模型YOLOv3用于辅助训练,有效地提升模型的精确度。通过对比不同模型的收敛时间、训练及测试时间,表明本文提出的模型整体周期更短,生成的描述在BLEU_1、BLEU_2、BLEU_3和ROUGE等指标上的得分比UIC模型提高2.6%、0.7%、0.6%和0.4%。第二,提出了融合残差结构与注意力机制的无监督图像描述模型Res-Att UIC。目前的无监督图像描述模型与较为成熟的有监督图像描述模型在指标得分上尚有一定的差距。主要问题在两个方面:用于提取图像特征的卷积网络不断加深,会带来梯度消失和信号消失等问题,影响模型收敛;模型生成的描述尚不能很好地关注到图像中的关键位置,在图像的背景或者其他无关紧要的部分浪费了部分计算资源。针对这些问题Res-Att UIC模型在GA-based UIC模型基础上改进,第一,参考Res Net中缓解梯度消失问题的方法,将残差结构引入编码器中的卷积神经网络中,有效避免深层网络带来的一系列模型问题;第二,将注意力机制融入到解码部分的生成对抗方法中,使模型在生成文本的同时可以关注到图像中的不同区域,有效避免计算资源的浪费。Res-Att UIC模型比现有的无监督图像描述模型在BLEU_1、BLEU_3、BLEU_4和METEOR等指标上得分比UIC模型提升3.7%、1.2%、1.3%、1.9%和1.0%,表明最终的描述质量有一定的提升。本文首先提出基于生成对抗方法的快速无监督图像描述模型GA-based UIC,实现了在不依赖数据集的情况下进行无监督图像描述。接着提出了融合残差结构与注意力机制的无监督图像描述模型Res-Att UIC,增强生成的描述语句的质量。
其他文献
在线学习者由于其学习基础、学习方式和学习能力不同,导致其所遇课程的知识难点也不同,教师需要及时了解知识点对不同认知水平的学习者的困难程度,才能更好地因材施教。本文通过对学习者在在线学习平台中产生的多维交互行为数据进行协同分析,研究了两种知识难点聚类算法,内容如下:1.针对现有知识点难度分类算法未有效考虑学习者交互行为规律和遗忘行为的问题,本文提出了一种基于多维时序数据和学习路径网络的知识难点聚类算
学位
进入1930年代之后,胡适作为中国思想界、文化界权势人物的地位日益巩固,但他的追随者是不断减少的,在青年人群中的影响力是逐渐衰弱的,尤其是批评胡适“落伍”的声音此起彼伏。自新文化运动以来积累起来的巨大声望赋予了胡适足够的“社会资本”,他姿态甚高,风头又劲,在九一八事变之后国难危机不断加剧的时代背景下,始终坚守自身立场,说他想说的话,不会为赢得拥护而主动“迎合”年轻人。但新一代已经崛起,他们迫切需要
期刊
当运动电荷掠过周期结构的表面,会在结构表面感应出表面电流,产生向外辐射的散射波,这一现象被称为Smith-Purcell辐射。近几年,超表面由于其亚波长周期,厚度远小于波长等特性,通过合理的设计超表面的单元结构图形,将超表面与SmithPurcell辐射相结合,能够对辐射波的幅值、相位、极化方式等进行调控。本论文主要解决了电子束速度改变的情况下,辐射波方向和频率随着电子束速度的改变而任意变化问题,
学位
形式化方法是一种严格建立在数学基础上,对计算机软、硬系统进行规约、建模、验证和分析的方法。作为形式化方法的主要内容之一,形式规约可以对系统和其满足的属性进行规约。安全性和活性作为一类系统需要满足的基础属性,是确保系统安全性与可靠性的重要因素。随着软、硬件系统的日益庞大,许多量化的行为特征在开发时设计在系统中,所以仅用定性技术不足以对系统的行为进行精确的评估。将经典的形式规约与模糊逻辑相结合可以有效
学位
近年来移动通信经历了五代的发展,从其发展的历程不难发现,移动通信朝着高频段和大带宽趋势发展,此外,用户对多业务的需求迫使通信标准也在持续增加。在5G这个万物互联的新时代中,射频前端作为与外界通信的重要枢纽,在通信系统中起到重要作用。与传统由多链路组成的兼容多通信标准的射频前端电路相比,能兼容多通信标准的宽带射频前端电路,在小型化和低成本方面具有明显的优势。因此,研究兼容多通信标准的宽带射频前端电路
学位
哈希算法将任意输入长度的消息,经过多轮变换得到一个固定长度的消息摘要值,其在数字签名、数据完整性检验,冗余校验等多方面均有着重要的应用。为了更好地抵抗量子计算攻击,基于大尺寸输入置换的哈希算法应运而生。这些大置换部件通常采用多个非线性密码S盒来构建,因此这些密码S盒的代数性质与哈希算法的安全性息息相关。如何快速评估输入尺寸为16比特及以上的大尺寸密码S盒的代数性质是目前的研究难点之一。进一步地,如
学位
表面等离激元(SPPs)将光波束缚在比其波长小得多的区域,可以突破衍射极限,具有独特的表面局域和近场增强特性,为大规模微结构器件设计提供了一条途径,已成为现代纳米光电领域研究的热点。在众多新颖SPPs现象中,基于等离子体纳米结构的Fano共振凭借其尖锐的非对称光谱线型和对环境介质的高度敏感特性,在纳米光学元件和生物化学传感器等方面的应用具有优势。随着微纳米加工技术的发展,传感器正朝着高灵敏度、检测
学位
哈希学习(又称二进制码编码学习)将高维数据点编码为二进制码,从而有效地利用汉明空间逼近原始的高维度量空间,实现大规模多媒体数据快速检索。实际应用中,通常要求搜索引擎对在线图像流数据进行索引,在线哈希算法应运而生。因此,研究对在线流数据进行哈希编码的在线哈希算法,提高图像检索模型的学习效率和准确率,具有十分重要的科研和工程意义。但到目前为止,在线哈希仍然是一个开放的问题,主要挑战在于很难在模型准确率
学位
与国外公募REITs侧重投资市场化的商业地产相比,我国首批公募REITs主要投向地产属性相对较弱、运营稳定、风险较小的领域,有力助推了基础设施的发展。国企可借助公募REITs盘活优质资产、降低资产负债率、提升运营能力;投资者可在做好相关风险分析的前提下,通过公募REITs实现分散化、稳健化的资产配置。为促进REITs市场更好地发展,未来应在深化公募REITs注册制、增强市场流动性和提高税收优惠方面
期刊
近年来,随着网络的快速发展,互联网上的视频数据越来越多,视频检索算法也遇到了许多新的问题。为了能够高效准确地检索出目标视频,视频哈希算法受到了广泛的关注。然而,大多数现有的监督视频哈希算法基于成对相似性或三元关系设计哈希函数,并专注于局部信息,这导致算法的学习效率较低。本文算法从全局角度出发,使得相似的视频收敛到相同的哈希码,不相似的视频则映射到不同的二值码,以此生成更具判别性的哈希码。本文的主要
学位