论文部分内容阅读
随着信息技术的飞速发展,网络充斥在我们生活的各个角落。在带给人们种种便利的同时,互联网也成为涉及色情、暴力、反动等不良敏感文本迅速传播的媒介。PDF作为一种轻便的文档形式,越来越多地出现在网络传输中,其中携带的不良文本信息的传播,不仅污染网络环境,也危害着社会的和谐稳定。然而,针对PDF文本内容防控的研究还没有完全成熟,如何高效准确地辨别PDF文档中文本内容的敏感性是一个重要课题。由于PDF文档汉字编码的特殊性且缺少足够的开源资源,目前国内针对在线网络环境下中文PDF文档敏感内容防控方面的研究还不充足,所以展开针对网络传输的PDF文档的敏感内容防控仍然是网络安全领域函待解决的关键问题。由于PDF文档的敏感内容防控系统需要在实时在线网络环境下运行,所以在PDF文档解析及敏感性判别的过程中,对处理速率和识别准确度等有很高的要求。本文在实现网络PDF文档敏感内容防控系统的基础上,提出了PDF文档stream流标签快速定位算法SLQP算法和文本内容流高效匹配算法PB-WM算法,以及基于注意力的双向区域LSTM网络模型进行目标情感分析来优化系统的识别准确度。对于内容标签的定位,实际上即为一种特殊的单模式匹配问题,该问题中模式特征和数据类型明确,而常见的单模式匹配算法无法利用这些特点,基于此本文设计了一种简单高效的单模式匹配算法。在实际现网环境下比较,对于静态PDF文档的内容标签定位问题,本文提出的SLQP算法匹配效率高于其他经典的单模式算法。对于PDF文本的敏感内容审查,特别是针对多个敏感词同时匹配的多模式匹配问题,本文基于中文PDF文本的编码规则,研究实现了一种适用于中文PDF文本内容的高效多模式匹配算法PB-WM算法。在中文PDF的文本内容匹配问题上,经过实验对比,PB-WM算法相比于其他多模式匹配算法具有更高的匹配效率。为了使得敏感内容防控系统对于PDF文档敏感性判别更准确,本文提出一种敏感词情感极性双重判断方案:即构建基于注意力的双向区域LSTM模型来对敏感词进行目标情感分析,从而准确判别敏感词的褒贬之意。此外,为了扩展敏感词范围,敏感内容防控系统基于Word2vec识别出敏感词的同义词,从而使系统功能更加完善。最后,论文以反向代理机制为框架,通过截取TCP流量,提取其中的PDF文档进行内容敏感判别,从而实现了网络PDF文档的敏感内容防控系统。测试表明,该系统可以满足对于在线网络中PDF文档的实时敏感判别。论文的相关分析工作为后续研究高效PDF内容防控技术具有一定的参考价值。