论文部分内容阅读
计算机和网络的飞速发展,将人类带入信息文明时代。人们随时随地都能接收到包括视频、图像、声音、文字等形式的各种媒体信息。其中由语言文字组成的文本以其精确表达、蕴含信息量大、灵活阅读、可快速检索等特点,成为人类最广泛应用的信息媒体形式之一。比如,人们每天接触到的法律文书、政府公文、电子文档、网络新闻、论坛、博客等都是文本。文本是人类信息交流的重要的载体形式。随着文本的广泛使用,文本的版权保护问题也日益凸现。文本数字水印技术是解决此问题的方法之一。20世纪90年代初,将版权信息嵌入文本文件中来确认版权归属的技术逐渐发展起来。但是受文本文件本身结构单一、处理手段特殊等特点的限制,文本水印的成果相对较少。同时,既然可以在文本文件中嵌入水印,那么也可以利用此性质,将秘密信息嵌入其中来传递。这样就涉及到比版权确认更重要的问题—国家信息安全。首先,研究文本数字水印技术,用这项技术来审查可疑文本文件,可以及时截获和破解来自外部的秘密信息,阻止国内涉密信息通过此渠道向外传递;其次,可以利用此项技术来传送自己的涉密信息。因此,对文本数字水印的研究显得尤为迫切和重要。本文利用模糊聚类理论,建立选择水印载体汉字的数学模型,提出一种基于此理论的文本数字水印算法。该算法取汉字的使用频率、笔画数和汉字在文本中的分散均匀度三分量构造成的特征向量作为模糊聚类分析的原始数据。一个文本中,某些汉字会被多次重复使用,选择使用频率高的汉字,提高水印的容量;选择那些在文本中分布均匀度高的汉字,使水印均匀分散到文本中,文本受到攻击时,水印损失小;选择笔画少的汉字,这类汉字一般比较瘦小,微调其字符宽度,保真度好。水印嵌入前,原始水印编码用m序列伪随机排序的方法作置乱处理,然后用微调汉字宽度的方式嵌入水印编码,用微调汉字RGB值的方式,将编码汉字每16个标记为一组,而且编码具有一定的自纠错功能,在载体汉字部分丢失的情况下可以完全恢复水印。提取水印时,根据水印的各种可能攻击方式,分别设定水印提取的判定条件,使水印在某些破坏条件下可以完全恢复,某些条件下能部分恢复。最后对这种水印算法做了格式变换、删除、添加、替换攻击实验,与其他一些水印算法比较表明,该算法的鲁棒性、保真度较好,容量较大。