论文部分内容阅读
图像处理是数字信号处理的一个热门研究领域,而图像内容翻译和图像内容安全则属于人工智能的研究内容之一。图像理解要求检测和识别图像中的对象、场景、位置及其相互作用或关系。生成结构良好的句子需要语法和语义的理解。每天,我们都会遇到许多来自不同来源的图片,如互联网、新闻文章、文档图表和广告。然而,这些图像没有正确的标签,也没有很好地防止数字信号处理攻击。如果人类从网站或数据库源中搜索特定图像,机器需要进行图像解释并保证图像内容的安全。图像字幕和图像安全是很重要的;它们可以用于自动图像索引。图像索引是基于内容的图像检索(CBIR)的重要组成部分,因此它可以应用于生物医学、商业、军事、教育、数字图书馆和web搜索等领域。Facebook和Twitter等社交媒体平台可以直接从需要适当标记和保护的图像中生成描述。为了填补这些空白,我们开发了自动生成图像描述并提供图像内容保护的系统。在我们首次提出的工作中,我们探索了主流的图像说明方法,即以简单的方式利用编码器-解码器模型或者是注意机制的组合,分析并产生源图像文本描述作为输出。这两种模式都面临着各种各样的困难和问题。基于注意力机制的方法使用单个热图去关注特定的区域或者对象。热图可以用来表示图像中哪个部分最重要。然而,它不能平等地评估图像的每个部分。单个热图模型,如卷积神经网络(CNNs)和递归神经网络(RNNs),之所以遇到阻碍,是因为过分依赖停留在图像级别的全局特征,因此会遗漏对象并误解图像。此外,这些模型忽略了非视觉信号的方式嵌入视觉信息,这种方式不会提高视觉描述的准确性和多样性。为了解决这些问题,我们提出了一种全局局部联合信号注意模型(GL-JSAM)。该模型首先在图像层提取全局特征,在对象层提取局部特征。此外,该模型通过对全局和局部图像特征的累加来获取图像的细节特征。新的联合信号注意模型只选取相关信号,从图像细节特征中提出不相关和冗余的部分,并将细节特征传递给语言模型。另一方面,在语言模型中,联合信号注意力模型会在每一个时间戳内关注图像特征和语言特征,生成各种丰富、准确、具有描述力的句子。我们通过在MS-COCO数据集上进行实验,验证了该方法的有效性和优越性。我们的第二个工作目标是通过提取的数据集来描述图像,帮助幼儿在教育环境中理解图像。不幸的是,现有的流行数据集,如flickr8k、11k、MS-COCO,以及许多其他经常用于图像字幕说明的数据集,其视觉描述要么复杂,要么过于笼统,这与儿童的学习无关。在当前的数字图像时代,一旦幼儿能够方便地接触到智能设备,就必须在教育初期为他们提供合适的教材。为了填补这一空白,我们提出了一种自动数字图像描述符。首先,该模型使用智能增强技术从Flickr8k和SDD数据集中开发了一个合并的3K Flickr SDD数据集。我们还修改了 merage 3K Flickr SDD数据集的每个标签,使其适合儿童理解。视觉特征提取采用CNN(卷积神经网络)和LSTM(长-短期记忆)语言模型生成文本序列。避免使用递归神经网络(RNN),因为RNN会因为梯度消失而遗忘先前信息中生成的句子。我们对于实验结果进行了定量和定性分析;研究结果表明,与现有模型相比,该模型在标准数据集上具有更好的性能。与合并的3K Flickr SDD数据集的两个版本相比,它还展示了显著的竞争力。在我们的第三个提议的工作中,我们探讨了图像内容的安全性问题,这个对于信息共享的前景有着重要意义。我们最初的尝试是将图像输入音频。不过,这个模型也可以很容易地应用于任何封面媒体,如音频、视频、语音和文本。然而,通过数字网络共享照片是非常不安全的,现有的音频水印策略对信号处理攻击的鲁棒性不够,因此很容易导致日常数据所有者失去版权保护和内容认证。实现健壮性、不可感知性和数据容量之间的平衡对于一个先进的模型来说是一个巨大的挑战。作为一种解决方案,我们提出了一种鲁棒的三重加密的音频图像水印方案,该方案首先对二值图像进行双重加密,提高了水印图像的安全性。水印嵌入前,对加密图像和宿主音频信号进行双树复小波变换(DTCWT)、短时傅立叶变换(STFT)和奇异值分解(SVD),其中SVD层用于水印嵌入。三重转换提高了容量、不可感知性和健壮性。实验结果表明,该方案针对各种数字信号处理的攻击表现出很好的鲁棒性。在我们的第四个工作中,我们提出了另一个水印方案,重点是在不安全的网络上的数字数据的安全性和隐秘性。以前的系统主要关注健壮性、不可感知性和数据容量,但没有优先考虑数据安全。作为一个解决方案,我们提出了一个鲁棒的二重图像音频水印方案,该方案首先通过Arnold加密(AE)和Bose-Chaudhuri-Hocquenghem(BCH)码来利用二值图像。改进的水印图像安全性保证了入侵者不能直接提取水印信息。我们还利用双树复小波变换(DTCWT)、离散余弦变换(DCT)和奇异值分解(SVD)将嵌入的图像分解为覆盖音频,从而提高了隐藏容量的不可见性。与现有的音频水印方案相比,该方案具有安全性好、鲁棒性强、嵌入容量大的优势,同时对于高斯噪声、重采样、带通滤波、回声、MP3、MP4压缩和剪切攻击都具有不错的抵抗力和健壮性。