论文部分内容阅读
文本数字水印技术是一个涉及密码学、图形学、视觉科学、中文信息处理、图像处理、通信及信息安全等学科的交叉边缘科学,目前在理论上是很新的一个研究方向。已经取得的文本数字水印研究成果主要集中在基于文本格式的算法方面。最为典型的有字移、行移及特征编码等。但是这类算法的水印信息不是加载到文本内容之中,因此难以抵抗打印、格式转换等常见文档处理操作。而将水印嵌入文本内容的基于自然语言处理的文本水印算法中计算机自然语言处理技术是个瓶颈。另外,一篇文档里含有多个作者版权水印信息的时候,真正的版权信息难以确定,一些论文针对这种攻击提出了很多协议,但是这些协议过于复杂,或者在有效性上执行的不是很好。本文研究了一种多重文本数字水印技术,不仅能够让作者可嵌入鲁棒性要求高的版权水印信息、信息量大的标注水印信息,还可给文档打上时间戳标记。多重文本数字水印技术包括三种水印算法:(1)基于文档内容的算法。该算法首先对文档进行预处理,将符合一些中文语法规则的词组按语法规则进行组合,然后在各个词组组合集中通过对词组进行相应的变换来嵌入水印信息。嵌入水印后的文档语句仍然通顺、意思也没有发生改变,而且只需文档的内容没有改变,那么水印就一直存在,这是相对于基于格式水印算法的一大优点;(2)基于文档格式的水印算法。该算法提取出文档的汉语拼音,利用汉语拼音将平面文档立体化,再利用字符缩放将水印立体地嵌入到文档中,提取时通过提取不同层面的水印进行互相验证。该算法载荷量相当的大,可用于加载标注水印信息,并且通过提取的信息能够获知文档的破坏率。(3)基于时间戳认证的零水印算法。此算法引入一个时间戳权威机构,作者在发表自己的作品之前,首先将代表自己身份的水印、创作的作品进行绑定,然后向时间戳权威机构申请时间戳,以此证明某个时间开始本人对作品的所有权。申请成功后,保存含有时间戳的水印即可,这个时间戳即可证明从那个时间开始本人对作品的所有权。这种版权保护方案相对于其他版权保护方案来讲更为简单、有效。在多重水印技术中最为突出的一个问题就是要保证后嵌入的水印信息对先前嵌入的水印信息造成的影响较小或者为零。基于这种考虑,在文档中首先执行基于文档内容的算法嵌入水印信息1,再按以上基于文档格式的水印算法嵌入水印信息2,最后再按基于时间戳认证的零水印算法结合水印信息1或3给文档打上时间戳标记。由于三种算法加载的对象不同:一种基于内容,一种基于格式,另一种基于文档的统计特征,因此在提取水印时三个水印信息可单独进行提取而不会相互影响。