论文部分内容阅读
文本图像鲁棒认证技术的应用背景源于对纸质文档的保护,数字化文本在经历打印扫描等常规操作后,水印信息仍然能被完整地提取出来并进行有效认证。因此,该类算法必须有很好的抵抗几何失真和量化噪声的能力。数字水印之所以能得以实现,主要依赖于多媒体数据中大量的冗余信息。而文本图像的数据冗余度相对于其它多媒体数据极其有限,因而导致文本图像鲁棒认证技术的研究难度很大,一直处于发展迟缓的态势。在多媒体内容认证方面,目前的研究要么集中在水印算法上面,要么专注于数字签名的构造。然而,实践证明最安全的方法是利用数字水印技术将原始图像的数字签名作为认证码嵌入到图像中。已有的用于文本图像鲁棒认证的半脆弱水印技术大多存在嵌入容量低、鲁棒性差等特点。而鲁棒签名技术作为一种新兴的研究方向,主要集中在连续色调图像、视频、音频等领域,用于文本的鲁棒哈希签名算法在公开发表的文献中却鲜有提及。本文分析了文本图像鲁棒认证的通用框架,并对文本半脆弱水印技术和鲁棒摘要技术这二类重要问题展开研究,主要研究成果如下:(1)提出了一种基于笔画方向调制策略的中文文本半脆弱水印算法。为了实现笔画方向的量化调制,需进行有效的笔画提取、结点类型判定和方向调制决策。从视觉掩蔽性和安全性方面考虑,引入了可嵌入位的加密置乱和邻域相似度约束。水印检测阶段还采用了基于Hough变换的自动化信道失真补偿机制。与众多同类算法相比,该算法在水印嵌入率-失真-鲁棒性综合性能上更具优越性。(2)提出了一种基于轮廓特征的抗打印扫描文本水印算法。在打印扫描不变量基础上,结合Fourier描述子与人类视觉感知的一致性实现字符边界像素点的翻转,从而将水印嵌入到字符轮廓的视觉非敏感部分。在打印扫描不变量计算过程中,将某一文本行作为基准行计算全部字符的黑点数均值,而不用额外划分出一些字符作为黑点数“调整”部分,因而有效提高了嵌入容量。算法不局限于某一类文字,相对于已有方法具有更好的自适应性、水印透明性和高嵌入率。(3)提出了一种基于字符结构特征的鲁棒文本图像哈希算法。通过字符笔画与结点这两类低层次特征计算特征码,以消除感知内容上的冗余,再利用精确哈希算法对特征向量进一步降维。算法还考虑了硬拷贝操作引入的失真,对特征提取过程辅以倾斜校正。生成的哈希码既具有感知鲁棒性,又具有单向性、随机性、抗碰撞性等精确哈希的一般性质。实验结果验证了算法在电子-模拟混合信道下的有效性。(4)提出了一种基于字符形状特征的感知文本图像哈希算法。结合Fourier变换域特征和骨架不变特征产生一个中间Hash,再利用NMF数据降维方法和伪随机权向量生成文本图像Hash.与鲁棒Hash不同的是,感知Hash能较好地反映不同图像间的感知距离,从而更符合人类感知模型的内容表征。基于三个不同阶段(即特征提取、量化和压缩)的独立密钥使算法在理论上获得了较强的安全性。