基于深度神经网络的图像字幕和图像安全技术

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:candycandy726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像处理是数字信号处理的一个热门研究领域,而图像内容翻译和图像内容安全则属于人工智能的研究内容之一。图像理解要求检测和识别图像中的对象、场景、位置及其相互作用或关系。生成结构良好的句子需要语法和语义的理解。每天,我们都会遇到许多来自不同来源的图片,如互联网、新闻文章、文档图表和广告。然而,这些图像没有正确的标签,也没有很好地防止数字信号处理攻击。如果人类从网站或数据库源中搜索特定图像,机器需要进行图像解释并保证图像内容的安全。图像字幕和图像安全是很重要的;它们可以用于自动图像索引。图像索引是基于内容的图像检索(CBIR)的重要组成部分,因此它可以应用于生物医学、商业、军事、教育、数字图书馆和web搜索等领域。Facebook和Twitter等社交媒体平台可以直接从需要适当标记和保护的图像中生成描述。为了填补这些空白,我们开发了自动生成图像描述并提供图像内容保护的系统。在我们首次提出的工作中,我们探索了主流的图像说明方法,即以简单的方式利用编码器-解码器模型或者是注意机制的组合,分析并产生源图像文本描述作为输出。这两种模式都面临着各种各样的困难和问题。基于注意力机制的方法使用单个热图去关注特定的区域或者对象。热图可以用来表示图像中哪个部分最重要。然而,它不能平等地评估图像的每个部分。单个热图模型,如卷积神经网络(CNNs)和递归神经网络(RNNs),之所以遇到阻碍,是因为过分依赖停留在图像级别的全局特征,因此会遗漏对象并误解图像。此外,这些模型忽略了非视觉信号的方式嵌入视觉信息,这种方式不会提高视觉描述的准确性和多样性。为了解决这些问题,我们提出了一种全局局部联合信号注意模型(GL-JSAM)。该模型首先在图像层提取全局特征,在对象层提取局部特征。此外,该模型通过对全局和局部图像特征的累加来获取图像的细节特征。新的联合信号注意模型只选取相关信号,从图像细节特征中提出不相关和冗余的部分,并将细节特征传递给语言模型。另一方面,在语言模型中,联合信号注意力模型会在每一个时间戳内关注图像特征和语言特征,生成各种丰富、准确、具有描述力的句子。我们通过在MS-COCO数据集上进行实验,验证了该方法的有效性和优越性。我们的第二个工作目标是通过提取的数据集来描述图像,帮助幼儿在教育环境中理解图像。不幸的是,现有的流行数据集,如flickr8k、11k、MS-COCO,以及许多其他经常用于图像字幕说明的数据集,其视觉描述要么复杂,要么过于笼统,这与儿童的学习无关。在当前的数字图像时代,一旦幼儿能够方便地接触到智能设备,就必须在教育初期为他们提供合适的教材。为了填补这一空白,我们提出了一种自动数字图像描述符。首先,该模型使用智能增强技术从Flickr8k和SDD数据集中开发了一个合并的3K Flickr SDD数据集。我们还修改了 merage 3K Flickr SDD数据集的每个标签,使其适合儿童理解。视觉特征提取采用CNN(卷积神经网络)和LSTM(长-短期记忆)语言模型生成文本序列。避免使用递归神经网络(RNN),因为RNN会因为梯度消失而遗忘先前信息中生成的句子。我们对于实验结果进行了定量和定性分析;研究结果表明,与现有模型相比,该模型在标准数据集上具有更好的性能。与合并的3K Flickr SDD数据集的两个版本相比,它还展示了显著的竞争力。在我们的第三个提议的工作中,我们探讨了图像内容的安全性问题,这个对于信息共享的前景有着重要意义。我们最初的尝试是将图像输入音频。不过,这个模型也可以很容易地应用于任何封面媒体,如音频、视频、语音和文本。然而,通过数字网络共享照片是非常不安全的,现有的音频水印策略对信号处理攻击的鲁棒性不够,因此很容易导致日常数据所有者失去版权保护和内容认证。实现健壮性、不可感知性和数据容量之间的平衡对于一个先进的模型来说是一个巨大的挑战。作为一种解决方案,我们提出了一种鲁棒的三重加密的音频图像水印方案,该方案首先对二值图像进行双重加密,提高了水印图像的安全性。水印嵌入前,对加密图像和宿主音频信号进行双树复小波变换(DTCWT)、短时傅立叶变换(STFT)和奇异值分解(SVD),其中SVD层用于水印嵌入。三重转换提高了容量、不可感知性和健壮性。实验结果表明,该方案针对各种数字信号处理的攻击表现出很好的鲁棒性。在我们的第四个工作中,我们提出了另一个水印方案,重点是在不安全的网络上的数字数据的安全性和隐秘性。以前的系统主要关注健壮性、不可感知性和数据容量,但没有优先考虑数据安全。作为一个解决方案,我们提出了一个鲁棒的二重图像音频水印方案,该方案首先通过Arnold加密(AE)和Bose-Chaudhuri-Hocquenghem(BCH)码来利用二值图像。改进的水印图像安全性保证了入侵者不能直接提取水印信息。我们还利用双树复小波变换(DTCWT)、离散余弦变换(DCT)和奇异值分解(SVD)将嵌入的图像分解为覆盖音频,从而提高了隐藏容量的不可见性。与现有的音频水印方案相比,该方案具有安全性好、鲁棒性强、嵌入容量大的优势,同时对于高斯噪声、重采样、带通滤波、回声、MP3、MP4压缩和剪切攻击都具有不错的抵抗力和健壮性。
其他文献
我国线上电商发展进程迅速,尤其近三年以来,新冠疫情更加促进网络零售交易规模的指数级爆炸式地增长,也促使电商平台间竞争加剧。电商平台通过运营加强自身竞争力的同时,充分利用社交网络资源优势,将电商与社交融合,低成本获客,直接精准的向目标客户投放商品促销信息,开发娱乐性互动游戏,不断提高与用户有效互动频次,以提高用户粘性,扩充用户流量。在阿里巴巴、京东、拼多多等电商巨头的引领下,电商行业进入新征程,开放
学位
传统的飞机装配线管理过程以人工经验管理为主,面对飞机制造车间复杂的不同结构的数据不能做到实时管理,模型的适配性较差,设备难以主动进行故障诊断,这些因素综合起来导致飞机的生产计划和实际生产过程严重脱节,从而提高了制造成本、降低了生产效率和产品质量。现有研究成果表明,数字孪生(DT)技术可以实现物理空间与虚拟空间的实时交互与深度融合,物理空间的实体对象在虚拟空间中完成精准的数字化映射,虚拟空间基于数据
学位
当今世界正处于大发展大变革时期,技术创新和产业化的周期明显缩短,科技创新改变了我国乃至全球的竞争格局,科技企业面临着跨越式的发展机会。科技企业要想保有市场竞争力并可持续发展,关键在于提高企业的自主创新能力。创新型人才作为新技术的发明者、新科学的创建者、新产业的开拓者,已经成为企业竞争力的决定因素。然而,当前我国有不少科技企业对创新型人才的管理理念守旧,管理效率低下,抑制了人才活力的激发。综上,科技
学位
通过“虚实结合”的方式推进以国资为主导的创新联合体的组建。在起步阶段,聚合各方资源打造“虚拟化”平台型创新联合体。在建设阶段,成立创新联合体实体,实施公司化运作。由各方共同出资或以知识产权作价出资,一方面便于土地、资金及税收政策等落地,另一方面便于后期以创新联合体名义申报专利、科研成果等,按照实际贡献与股权比例相结合的方式,完成创新联合体的成果分享。
期刊
“执行不能”是执行工作中的一大难题,在被执行人没有可执行的财产的情况下,法院的执行工作无法落实,债权人的合法权益也难以得到保障。我国现行的执行措施,虽在一定程度上能够督促或强制被执行人履行债务,但对于被执行人无财产履行能力的情况并没有有效的解决办法。劳务抵债作为一种古老的帮助债务人履行债务的方式,其合理运用能够帮助被执行人恢复财产履行能力。随着劳动力市场的开放,劳务的方式被扩宽,劳务抵债的可行性与
期刊
氨基丁酸(GABA)是广泛存在于脊椎动物、植物和微生物中的一种氨基酸,也是中枢神经系统的一种重要抑制性神经递质。在日粮中添加GABA能够调节畜禽的采食量、抗氧化性能和免疫水平等,缓解动物热应激。文章综述了GABA的生物学功能及其作用机制,概述GABA作为饲料添加剂在奶牛生产中的应用效果,以期为GABA在反刍动物生产中的合理应用提供参考。
期刊
磁悬浮轴承运行进入磁饱和后控制难度提高,动态性能降低,影响压缩机稳定运行。通过对磁悬浮离心式压缩机采用的主动磁悬浮轴承进行理论分析,模拟计算无磁饱和时磁悬浮轴承的承载力和磁感应强度。利用有限元软件分析各因素对磁悬浮轴承磁饱和的影响,定量描述磁感应强度在不同结构参数下的变化规律。研究表明,在最大控制电流不变的条件下,降低绕组线圈匝数是避免磁饱和的最佳方案。
期刊
改革开发以来,中国工业产业迅猛发展,其中包括化工、炼油等在内的化学工业作为我国工业产业的重要一支,也获得突飞猛进的发展。化工园区主要是指以石化化工产业为纽带形成的工业聚集地,是现代工业集约化、高效化、链接化的产物。近二十多年来,越来越多的化工园区在中国建立。这些化工园区对促进地区经济发展和中国石化产业的进步起到了巨大作用,但化工园区事故引起的安全问题也越发引起人们的重视。在化工园区内,存放着大量具
学位
报纸
线缆作为重要的传输媒介已广泛应用到民用建筑、工业厂房、核电站、航空航天等领域。由于线缆绝缘材料多为高聚物,无论是否经阻燃处理,在过载、短路、外部加热等作用下都易发生分解及起火。一旦线缆被点燃,其火焰不但会沿敷设方向快速传播而且还会引起附近其他可燃物着火,进而扩大火灾规模,同时释放大量毒害性烟气和气体,增加火灾危害性。国内火灾统计显示,因线缆故障起火所引发的电气火灾已超过一半。因此,开展线缆火灾行为
学位