论文部分内容阅读
作为保障信息安全的一种新手段,信息隐藏近二十几年以来一直受到广泛重视。研究隐写和隐写分析为代表的信息隐藏技术符合国家信息安全的重要需求,具有重要的学术意义和应用价值。目前学术界在图像隐写检测技术方面取得了丰硕的研究成果,且在实验室环境下表现出较高的检测性能。但不可忽视的一个问题是,这些方法在应用于实际网络环境时,由于现有的隐写取证方法大多采用基于机器学习的分类器设计模式,且往往假设已知隐写者所使用的载体来源和隐写方式(隐写算法和负载量),而实际应用中这些先验信息有可能是完全未知或部分未知,甚至还可能缺乏相应的训练样本,因而不可避免地会出现所谓的分类器“失配”问题,从而大幅度地降低检测性能。虽然近年来提出了很多针对“失配”问题的解决思路,但由于种种原因,仍然很难从根本上解决该问题,从而限制了隐写取证在实际网络环境下的应用。鉴于此,本文通过分析实际网络环境下二维先验信息(载体来源和隐写方式)的不同组合以及是否包含相应的训练样本,并结合异常检测、图像聚类、相似图像检索和特征选择等相关技术,提出一类能适用于网络环境下图像隐藏信息检测的系统设计方法,解决分类器的“失配”问题,从而推动隐写分析技术从实验室走向实际网络环境。论文的主要工作和学术成果包括:1、在已知隐写者所使用的载体来源但不知隐写方式的模式下,为了应对已有方法无法在已知(已经存在)和未知(先前没有见过)隐写算法上都获得较高准确率的问题,提出一种基于参考点局部异常因子(Local Outlier Factor,LOF)和Low-All采样的通用盲检测方法。首先,用尽可能多的已知隐写算法和混合嵌入率生成辅助载密图像;然后,采用基于参考点的LOF算法计算辅助载密样本点(特征向量)关于测试样本点的LOF得分;其次,从辅助载密图像中选择LOF得分较小的若干载密图像作为训练载密图像;最后,在载体图像和选择的训练载密图像上训练一个二分类器用于测试。大量实验结果表明,所提方法在已知和未知隐写算法上的性能都远远优于已有方法。2、在不知隐写者所使用的载体来源和隐写方式的模式下,为了避免模型失配问题,提出一种新的无监督通用隐写检测框架,即结合图像统计特性相似性检索的无监督异常检测,来识别单个载密图像。首先,给定一幅待测图像,从检索图像库中搜索出与之统计特性相似的若干载体图像作为其辅助载体样本;然后,对由待测图像和其对应的辅助载体样本构成的测试集进行无监督异常检测,从而判定给定待测图像是否嵌密。为了验证该框架的有效性,针对具有不同压缩历史的混合异构位图图像的隐写检测问题,提出一种结合位图压缩历史检索的无监督异常检测方法。该方法采用了一种低维的隐写检测特征和三种基本的无监督异常度量。在六种空域隐写算法上的实验结果,表明该框架具有以下优点:(1)不需要训练,可以避免模型失配;(2)具有通用性,即在一定程度上可以检测已经存在和新颖的隐写算法;(3)图像统计特性相似性检索的引入,减弱了载体差异对现有隐写检测特征的影响;(4)明显优于单类支持向量机和传统的无监督异常检测方法,且其性能与测试样本中载密图像所占比例无关。3、为了探究结合图像统计特性相似性检索的无监督异常检测框架与高维隐写检测特征是否兼容,以及载体差异大小对其性能的影响,针对具有不同纹理复杂度的原始未压缩图像的隐写检测问题,提出一种结合图像内容检索的无监督异常检测方法。首先,利用提出的36维纹理特征从检索图像库中搜索出与给定待测图像纹理复杂度相似的若干辅助载体样本;然后,对待测图像及其辅助载体样本进行无监督异常检测。该方法选用了四种不同维度的隐写检测特征,两种基本的以及五种处理高维数据的无监督异常度量。大量实验结果表明:(1)载体差异越大,所提框架的性能提升就越明显;(2)在载体差异较小,隐写检测特征维数较高或极高的情况下,该框架不仅能保留其通用性,而且获得了可靠的检测性能;(3)现有的或新的无监督异常度量方法都可以应用到该框架中。此外,还讨论了检索图像库中载密图像所占比例对所提框架性能的影响,且提出一种噪声图像去除的策略来对检索图像库进行预处理,从而使得所提框架更适用于实际环境。4、考虑到实际应用中可能会获得少量的训练样本,因此定义一种特殊的隐写检测模式:(1)载体图像来源未知、隐写方式未知;(2)有少量的训练样本,且和测试样本具有相同的载体来源和隐写方式;(3)训练样本中载体图像的数目要远远大于载密图像。我们称这种模式为小训练样本下的极不平衡隐写检测(Highly Imbalanced Steganalysis with Small Training samples,HISST)。针对类别不平衡问题,已有学者严格研究了采样、新的分类算法和特征选择这三种类型的方法,但在隐写检测领域却很少涉及,尤其是特征选择方法几乎都应用于文本分类和生物数据分析。因而,将八种不同的特征选择标准和三种后续分类器进行组合,在四种有代表性的隐写检测特征下,评估了各种组合的性能,获得如下结论:(1)将特征选择算法和Fisher线性判别器组合,可以有效地克服HISST问题,即使是在高维的隐写检测特征下;(2)就平均性能和平均最优特征数目而言,对于低中维隐写检测特征,基于优化Fisher和等级相关系数的算法是最好的选择;而对于高维隐写检测特征,基于滑动阈值的特征评估算法分类性能最好。此外,还对比了上述三类方法和其组合的性能,可以得出,在大部分情况下,特征选择方法优于采样和新的分类算法,而且这三类方法的组合并没有产生进一步的改进结果。最为重要的是,随着样本数目的增加或类别不平衡度的降低,特征选择方法逐渐失去了解决不平衡隐写检测问题的优势,甚至比使用全部特征的线性支持向量机的性能更差,这种趋势对于高维隐写检测特征尤为明显。最后,归纳总结了本文工作,并对网络环境下图像隐写分析技术的发展和研究进行了展望。