论文部分内容阅读
本算法首先对文本进行分词并统计每个词的词频及词性,经过预处理后提取特定的分词序列及对应的词频作为文本特征。同时定义了一种能适用于中英文的基于文本特征的相似度计算方法,用以确定阈值和检测水印。实验结果表明,该算法与同类算法相比具有更强的鲁棒性,并且处理文件不受文本格式及多媒体内容的限制,具有很好的实验效果。