论文部分内容阅读
在数字化技术迅猛发展的今天,一些涉及企业与政府的敏感信息文件经常因为窃泄密等原因在网络上出现,这些文件的泄露往往会给政府或企业带来重大的负面影响,因此如何发现这些敏感文件已经成为当前信息安全领域的热点课题之一。传统的敏感文件检测大部分是通过特定的关键字匹配来实现的(比如保密、机密、绝密等关键字),但中文是一种重“意合”,轻形式的文字,语句歧义现象非常普遍,对于存在语义歧义的时候,基于关键字匹配的敏感文件检测,存在检测精度差,以及后续关键词扩充繁琐的特点,同时由于很多泄露的文件往往是先拍照再在网络上传输,此时基于关键字匹配的检测方法就完全失效了。本文针对互联网上拍照泄露敏感信息文件的常见情况,首先设计了一个高效判断是否是中文文本图像文件的算法,然后在此基础上采用OCR处理实现文字提取,最后通过基于深度学习技术对文本语料样本库进行训练而建成的模型实现检测。本文的主要工作概括如下:(1)提出一种基于改进的笔画宽度中文文本图像检测算法(SWT)。利用文本笔画宽度较为固定的特征,首先通过canny算子对图像进行边缘检测提取边缘检测图。其次,在文字边缘像素点上寻找符合笔画宽度方向阈值上的边缘像素点,并计算像素点间的笔画宽度距离。然后,把笔画宽度路径上大于笔画中值的宽度信息,更新为笔画宽度中值信息,输出包含每个像素点笔画宽度信息的SWT图像。最后,根据字符候选区域相关过滤规则聚字成行,同时结合本文针对中文文本图像设计的4点启发性规则来进一步提高中文文本图像文件的检测效果。(2)提出一种基于双向长短期记忆神经网络(Bi-LSTM)与分层注意力机制(HAN)相结合的深度学习敏感文件检测方法。首先,根据国家相关保密法规对敏感文件的定义方式,综合选出了“政治敏感”,“宗教敏感”,“军事敏感”,“人权敏感”,“非敏感”5种敏感文件定义,然后收集、标注、构建训练的敏感文件语料库。其次,针对文本语料的训练特点,对构建的语料进行向量化,使其符合深度学习对输入数据格式的要求。最后,提出基于Bi-LSTM与HAN相结合的神经网络模型,对收集到的文本语料库进行训练,并最终实现图像形式的敏感文件检测。(3)利用以上算法搭建了一个验证演示系统。系统主要分为图像预处理、图像OCR、以及文本图像敏感文件检测3个部分。在图像预处理方面,本文针对图像文件拍照过程中,较常出现的倾斜以及透视现象,提供相应的校正功能,使其在图像OCR阶段可以取得较好的识别效果。在敏感文件检测方面通过设计的基于Bi-LSTM与HAN相结合的检测模型,对OCR识别提取到的文本,进行敏感检测从而达到系统的设计要求。