论文部分内容阅读
图像隐密分析的目的是,通过分析网络日常图像的微观统计特征,检测图像数据中可能潜藏的秘密信息,以打击恐怖组织及不法分子对隐密(即信息隐藏)技术的滥用。传统的隐密分析技术多采用提取图像对嵌入机制敏感的特征,并使用二类分类器或者多类分类器构建模型,然后对待测样本进行隐密判决。然而大多数的分类系统的分类精度严重依然于有标记训练样本的数量。因此,如何在有限数量的标记样本下,充分利用网络以及社会生活等领域中积累的大量无标记样本来提高隐密判决精度已成为隐密分析领域亟待解决的问题。本文结合半监督学习方法,利用有限的有标签数据,充分挖掘大量的无标签样本信息,提出一种基于集成映射的隐密分析方法并将其改进,旨在为研制准确性更高和实用性更强的图像隐密分析技术提供新的理论及技术支撑。不同于以往的通过调整未标记样本的数据边界进行分类的半监督学习方法,本文从所有的可利用数据包括标记样本和未标记样本,学习一种新的图像表示方法,并使用普通的监督学习提取新的特征。首先,充分利用仅有的少量标记样本训练并粗分类所有数据,选择具有代表性的图像组成能够代表部分类别信息的原型集合;其次,使用多类分类器学习这些原型集;最后,将待测图像表示为在这些原型集上的预测值,将所有的原型集上的特征映射组合成图像的新特征,进行进一步分类。实验分析了5个隐密方法并和经典MFS-274以及具有很好的隐密分析性能的Rich Model算法进行对比,实验显示了本算法的性能在标记样本个数小于50的时候依然要优于对比算法。尤其对于2013年提出的安全性很高的J-UNIWARD隐密术,在标记样本为50, MFS-274完全无判决能力,Rich Model准确率为51.89%的情况下,本方法的分类准确率依然能达到74.44%。基于特征映射的隐密分析方法是对图像进行特征映射,所提取的特征可以适用于其他的分类器以及机器学习方法。本文将其与协同训练结合。首先,将该算法特征分为两个视图,使用有标记的样本初始化两个分类器;其次,以迭代的方式单独训练两个分类器,在每一次迭代中,通过独特的数字编辑技术保证正确预测标记置信度,将标记置信度高的样本传递给另一个分类器,从而增加另一个分类器的训练样本集。再次,为了避免加入噪声样本降低分类器性能,对加入另一个分类器的训练样本个数进行控制。最后,当满足迭代终止条件时,终止迭代对待测样本进行判决。大量的实验证明了该算法能够很好的处理标记样本稀缺的JPEG图像隐密分析问题。即使是在只有10个标记样本,待测样本为990时,对MB1的辨别能力相较于MFS-274依然能提升了5.96%。