论文部分内容阅读
政府、企业内部经常需要共享文档,在文档共享过程中易造成文档泄露,给用户带来重大损失。如何根据泄露的文档快速定位泄露者对于文档保护具有重要意义。文本图像水印通过嵌入接受者的标志信息,提取水印信息即可追查泄密源头,以此实现对文本信息的保护。嵌入水印后的文本图像要具有较好的视觉效果,在经过缩放和旋转等一系列攻击,甚至在打印-扫描的情况下,仍能成功提取水印信息,这是非常具有挑战的难题。面对传播途径和攻击的多样性,本文对同时具有抗打印-扫描性和强鲁棒性,且具有较好视觉效果的文本图像水印算法进行研究。为此,本文提出打印-扫描不变量结合双域(空间域和频域)的文本图像水印算法,主要研究内容如下:(1)本文中打印-扫描不变量是基于字符构造的,为使打印-扫描前后分割出一致的字符序列,设计了基于隐马尔可夫模型(Hidden Markov Model,HMM)的字符分割算法。在该算法中,为降低字符大小和位置对特征值的影响,给出了字符样本规范化方法,能够对字符的大小、位置进行归一;利用子图与字符图像黑色像素量的比值进行区间映射来构造特征值,提取方向特征,并采用多观测序列的Baum-Welch算法训练HMM,使识别器具有较好的识别率;利用前向概率和滑动窗口对字符进行识别分割,具有较好的字符分割效果。(2)本文水印算法中的像素翻转过程是基于Min Wu翻转策略的,由于在字符中可能不存在Min Wu最高翻转性分数对应的像素块模型,同时为了减小局部失真并与本文字符分割方法相适应,本文优化了Min Wu翻转方案。该优化方案利用翻转性分数排序机制保证了字符中分数较高的像素优先翻转;利用四邻域防止了局部严重失真;利用像素所在行或列是否全为白色像素来适应字符分割。Min Wu策略仅指出可用深度优先求解像素块的黑白连通簇数,未给出具体的算法,本文设计了像素块的黑白连通簇数的计算方法,能够准确的计算黑白连通簇数。(3)为使水印算法同时具有抗打印-扫描性、频域的强鲁棒性和空间域的高不可见性,提出了打印-扫描不变量结合双域的文本图像水印算法。在该算法中,为增强抗打印-扫描性,引入打印-扫描不变量构造特征矩阵;为增强鲁棒性,将特征值矩阵进行离散余弦变换(Discrete Cosine Transform,DCT)转到频域修改高频系数;为增强水印的不可见性,设计了一个字符筛选分组的规则,并在分情况的条件下,利用阈值等参数修改DCT系数,计算需要翻转的黑色像素量,然后利用优化的Min Wu翻转方案在空间域对嵌入部分和调整部分进行像素翻转,完成水印信息的嵌入。通过以上对字符分割、像素翻转方案、像素块的黑白连通簇数和文本图像水印的研究,本文设计了泄密源头追查系统,实现了文本图像的获取、基本信息的管理、含水印文本图像的生成和水印的提取与审计。实验结果表明,本文设计的基于HMM的字符分割算法具有较好的识别率和分割效果。相对于同类型的文本图像水印算法,本文提出的打印-扫描不变量结合双域的文本图像水印算法具有较好的抗打印-扫描性,对缩放等攻击具有较好的鲁棒性,并且具有较好的视觉效果。