基于内容相似性的电子文档敏感信息检测系统设计与实现

来源 :燕山大学 | 被引量 : 0次 | 上传用户:mipanglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今企业信息化程度较高,企业内网电脑中的核心机密数据无处不在,由于缺少电子文档敏感信息的检测工具,导致含有涉密内容的文档泄露事件时常发生,造成了企业不可挽回的损失。为了能有效识别这些存在敏感信息的电子文档,防止泄密事件的发生,本文突破传统策略方法,提出新颖的检测策略,设计开发了一套基于文本内容相似性的电子文档敏感信息检测系统。首先,提出了基于文件指纹算法的文档检测策略。针对传统Simhash指纹算法存在的不足,通过改进特征项提取方式,提出了Kb S指纹算法、Pb S指纹算法和So P指纹算法,并分析了三种新型指纹算法在检测不同敏感文档上存在的优势。在此基础上,进一步探究涉密文档内容的不同程度修改对数字指纹汉明距离计算带来的影响,进而验证了指纹策略可以对内容改动的涉密文档敏感信息进行识别,同时为检测策略设置敏感阈值提供依据。其次,提出了基于语义VSM算法的文档检测策略。针对传统向量空间模型存在的缺陷,研究了基于词语语义的相似度计算方法,通过增加语义概念改进传统VSM,建立Hownet VSM相似度计算方法,并通过聚类实验验证改进算法在内容相似度计算上的优势。在此基础上,进一步探究过程文档与原涉密文档的相似度数值关系并进行分析,为语义VSM检测策略设置敏感阈值提供依据。最后,开发了电子文档敏感信息检测系统,并对其进行实现以及功能和性能的测试。设计了系统的整体结构、主要功能模块流程和数据库结构。在此基础上,完成了系统的前后端代码实现,建立测试实验,验证了本系统在电子文档敏感信息检测功能上有较高的准确率,并可以实现内容改动的敏感文档以及过程文档的识别功能;同时对系统的检测耗时进行分析,验证了本系统在检测性能上有良好表现。
其他文献
随着信息化的迅速发展,六维力传感器在航空航天领域,体育健身领域,智能制造领域发挥着重要的作用。镶嵌式六维力传感器采用机械球解耦的方式,在根源上减小耦合输出,具有映射简单、刚度高、结构简单等优点。根据镶嵌式六维力传感器与Stewart结构六维力传感器的结构特点建立对应的数学模型,推导出对应的一阶静力影响系数,通过镶嵌式六维力传感器的数学模型与Stewart结构六维力传感器的数学模型进行对比分析,最终
学位
《三峡》一文奇美,美在结构清晰,读之一目了然;美在写景有序,讲究景与景之间的合理过渡;美在字词凝练,读来富有节奏韵律;美在意蕴丰富,一字一句都值得细细品味。以此“四美”作为要点实施教学,可使学生充分领略《三峡》之美,进而提高对祖国语言文字的审美能力。
期刊
目前,社会越来越关注幼儿的发展,家园共育已经成为幼儿园普遍追求的教育模式。该模式需要家长与幼儿园教师进行合作,完成对幼儿全面发展的培养工作。这种方式能够促进幼儿教育的顺利开展,同时还能促进家长与幼儿之间的交流沟通,对于幼儿的成长而言大有裨益。然而,当前幼儿园课程中家园共建模式还存在活动守旧、参与课程意识不足、共建课程机制不全等问题,因此,探讨了创新运用网络、更新共育模式、建立有效沟通、赋能家园协同
期刊
国债下乡是人民银行落实国家乡村振兴战略和惠民政策的直接有效手段,对于帮助拓宽农民投资渠道、防范农民非法集资,提高农民收入水平和维护农村地区金融稳定具有十分重要的意义。本文立足如何切实推进国债下乡助力乡村振兴,从工作实际出发,深入分析了影响国债乡镇销售的主要制约因素,并提出了助力"国债下乡"的具体对策建议。
期刊
经络理论是进行中医针灸与推拿、中药归经和临床治病机制研究的重要依托。然经络的具体物质基础和作用机制尚未明确。生物整体功能是由细胞间信息交流协助主导,而外泌体作为细胞间信息交流的重要载体,包裹了亲母细胞的重要信息,可循行迁移,按生物超分子“印迹模板”“气析”自主产生作用,实现信使的精确远处靶向作用,协调整体生物功能。因此,承载了外泌体的水通道,体现超分子体属性的经络物质运行规律便跃然纸上。文章在现有
期刊
随着科技的不断发展,人脸识别智能锁越来越受到人们的青睐,其应用到现实的生活中,为现代化的生活增光加彩。作为一种新兴的技术,人脸识别因其独特的优势,如人脸的唯一性,在众多生物识别领域中蓬勃发展,并且其在众多领域都发挥着极大的价值。由于人们生活品质和安全意识的提高,智能锁的要求也随之越来越高,更加现代化、智能化的人脸识别智能锁系统才能满足人们的需求。本文主要研究如何更好地利用深度学习工具,将人脸识别技
学位
红外与可见光图像融合作为图像处理的研究热点具有十分广阔的应用前景。通过脉冲耦合神经网络(PCNN)实现红外与可见光图像融合,是目前该领域研究的热点和难点。本课题以多尺度分析为工具,运用脉冲耦合神经网络理论,对红外与可见光图像融合的精确性、可靠性问题进行研究。首先,针对传统的PCNN模型结构采用二值函数去模拟神经元之间的输出特性,导致神经元之间丢失大量局部相关性的问题,提出了一种S型动态输出的脉冲耦
学位
本文在Zr56Cu23Al10Ni11非晶合金组分的基础之上,用微量Ta替换Ni设计了Zr56Cu23Al10Ni11-xTax(x=0,0.5,1,1.5,2,2.5at.%)体系的非晶合金成分。利用非自耗电弧熔炼与铜模吸铸相结合的技术制备了不同直径的非晶合金棒。通过X射线衍射(XRD)、透射电子显微镜(TEM)进行表征分析非晶合金结构。通过差示扫描量热(DSC)分析非晶合金热物性参数。通过电化
学位
钛锆基合金由于其密度低、比强度高、抗疲劳强和优异的力学性能等特点,被作为一种重要的结构性材料应用于石油化工、军事装备和生物医学等方面,可以有效地适应各种特殊环境,保障生产制造和科学研究的安全性、稳定性、高效性。Mn作为一种β相稳定元素,可以扩展β相区,在钛及钛合金中添加起到合金化作用,有效改善合金综合力学性能。本文以Ti-30Zr-5Al-3V合金为基础,向基体合金中添加Mn元素。研究了Mn含量和
学位
报纸