论文部分内容阅读
文本文档作为一种普遍使用的信息存储与传输媒体,利用它们进行隐秘通信、利用数字水印保护文本文档版权并对文档内容进行认证等是信息安全领域的热门研究课题。由于文本文档缺乏图像、音频和视频等媒体所具有的人类视觉或听觉冗余特性,以及当前自然语言处理研究领域对文本内容的理解、变换和生成缺乏坚实的理论基础与实用的自动化技术等原因,文本载体信息隐藏的研究工作极具挑战性。简述了信息隐藏的概念、模型、应用及国内外研究动态。考虑到自然语言语句是词的序列,处于序列中的词具有特定的词性,比如名词、动词等,因此语句可以变换为词性标记串(简称标记串)。将词性标记作为文本的一个变换域来研究,提出了若干基于变换域的文本信息隐藏新算法。自然语言的词性通常是有限的,如果在词性标记集上定义适当的偏序关系,则标记串就具有序的特性,通过计算逆序数的奇偶性,可以将标记串映射为0或1。研究发现,随机选取标记串序列,其对应的二进制序列具有较好的自相关性和互相关性。提出了利用序列逆序数奇偶性隐藏信息的算法,并证明了逆序数奇偶性在标记串符号对换、增加和删除变换下的性质。根据隐藏信息的要求,先对标记串做适当变换,再在变换后的标记串指导下修改自然语言句子,从理论上保证了可行修改的存在性,避免直接在自然语言句子层面上做修改的盲目性。该算法能抵抗同义词替换攻击。自然语言的句型具有稳定性,而标记串本质上就是句型,于是一篇文档对应的标记串具有统计特性。提出了一种基于信息熵的信息隐藏方案,该方案通过改变标记串的概率分布使其熵与隐藏的信息一致。由于水印函数是一类实值函数,其值域仅受计算精度限制,可以大幅度提高水印容量。算法能抵抗同义词替换、句子移位等攻击,避免了信息提取过程中的同步问题。安全性分析给出了敌手擦出水印的计算复杂度。另外,给定一个离散且有限随机变量的熵,求其对应的概率分布则需要解多元非线性方程,提出了一个将n元熵方程化为至多(n-1)个一元非线性方程求解的算法,证明了算法的正确性,给出了误差估计。Wayner等提出的载体文本生成技术在自然语言层次上构造文法,文法的语言是自然语言的一个子集,要保证载体文本语义的一致性而不至于引起第三方怀疑,对文法有很高要求,难于实现自动化。提出了基于Huffman树和词性标记文法的两种标记串编码信息隐藏方法。以标记串集合为变换域,将秘密信息与载体文本都映射到该域,再运用字符串匹配技术计算秘密信息句子在载体文本中的位置,位置即为密钥。接收方与发送方有相同的标记串集合与映射函数,根据密钥从载体文本中提取标记串,通过解码标记串读出秘密信息。给出了信息隐藏容量公式。由于本算法将秘密信息隐藏在文本句型而不是语句本身,从而可任意选取载体文本而彻底避免了语义一致性问题。词性标记文法易于构造,语法分析可用YACC实现,容易实现自动化。行移编码信息隐藏技术使用质心检测方法提取信息,在文本行长度较短的情况下检测误差较大。Low等指出质心检测方法对短文本行失效的原因在于短行质量小会导致质心噪声方差大,但未给出改进方法。对经典的质心检测方法作了改进,通过模拟扩展初始文本行,综合应用再生文本行轮廓和初始文本行轮廓信息构造了一个再生模拟文本行质心序列,证明了该序列依概率收敛于初始文本行质心。用MATLAB实现了行移编码与质心检测算法,实验结果表明改进后的检测方法在处理含有短行的文档水印时较之与经典方法,误检概率可减少一半。因此用行移编码嵌入水印时可不受文本行长度限制,提高了文档水印容量。