论文部分内容阅读
近年来,随着计算机及网络技术的飞速发展,大数据、云计算等新的技术逐渐影响着人们工作、生活的各个方面,这些无疑对保密工作都是前所未有的挑战。保密技术检查是国家保密行政管理部门及时发现失泄密风险隐患、查处违规违法行为的必要手段之一,其中一项主要工作内容,就是检查非涉密计算机中是否存储、处理涉密信息。然而,当前的一些技术手段和应用软件都无法满足现有保密技术检查关于检查效率、判断准确率、客观性等方面的要求,也不能够适应为了规避检查而进行人为处理或者未按照有关规定定密等特殊情况的检查需求。显而易见,当前亟需研究一种新的技术或者探索一个新的方向来解决上述问题。而随着互联网和电子科技的日益进步,以机器学习策略中SVM支持向量机为代表的新的区分涉密文件和非密文件的文本分类方法,有着广阔的发展前景。支持向量机(SVM)属于统计学习方法,是目前最方便、最快捷、研究领域应用较为广泛的一种算法,它在解决文本分类、图像识别等分类问题的实际应用中有着坚实的理论基础和良好的实际表现,进一步夯实了它在这个研究领域的广泛应用性和主导地位。在此前提下,本文通过研究分析中文分词、文本分类等相关技术和原理,提出了支持向量机的改进方法,研究并实现了基于改进的支持向量机算法的涉密文件识别系统,力求在保密技术检查技术方面开拓一条新的思路,主要解决如何应用计算机技术进行涉密文件识别判断的问题。本文先后研究了文本分类相关理论及研究现状,选择了SVM支持向量机作为本文研究的系统的主要实现算法,研究分析了SVM支持向量机基本原理,基于对比几种主流的中文分词方法,提出了基于三阶HMM隐性马尔可夫模型对文本特征提取的改进,随后在对经典TF-IDF公式分析研究的基础上,提出了基于特征词分布特性和特征词位置关系两个方面的改进方法并完成了对比测试,对于基于改进的支持向量机算法的涉密文件识别系统进行需求分析和功能设计,并针对设计的各个模块功能以PYTHON作为编程语言进行了代码实现,最后进行了系统相关测试和实验。本文基于对上述内容的研究,实现了对电子文档格式的涉密文件进行有效识别。相对于传统的基于关键词检索的涉密文件识别判断方法来说,本系统的原理是基于通过对文件内容本身进行检测判断其是否为涉密文件,能够大大提高涉密文件识别效率。同时,SVM通过训练之后并不存储涉密文件本身的内容,通过这样的计算机系统来识别涉密文件,减少了保密技术检查过程中的多数人为环节,也可避免因检查过程造成的涉密信息知悉范围的扩大,增强了涉密文件的安全性。此外,还可以解决不按要求定密或派生定密不准确等实际问题。本文从高效、准确、快捷、方便用户使用等多方面出发,为涉密文件识别工作提供了一个完整的系统,使之更好地适用于当前新形势下的保密工作实际开展。