基于云计算的敏感词检测技术研究

来源 :张瀚森 | 被引量 : 0次 | 上传用户:claverchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网普及后,网络中的信息资源就更加丰富。同时,在网络中存在更多不健康的信息比如不良信息、非法信息和敏感信息,网络逐渐成为负面消息的传播基地。安全审计就是在这样各种网络安全风险因素广泛存在的情况下诞生的,这是一种全新的网络安全保证方式。安全审计具有动态性、实时性和主动防御性等特点而受到大家的肯定。本文以某公司的网络安全审计系统项目为例,对内容审计中的敏感词检测技术重点做了一番研究。先概括了网络安全审计和敏感词检测的定义、现状和与之相关的技术。然后,在针对系统功能需求的前提条件下,开始组建总体系统模型。从存储格式来看XML格式是最为主要的日志数据形式,该格式既在语义上又在结构上具有两重信息。论文在Dewey编码和双数组Trie树上对XML文档敏感词相关检测技术开展了对应的讨论和探索,而其中敏感度就是新的提出词,并对此进行计算。本文通过研究,最后设计了敏感词检测系统的原型,同时对该课题所研究的方法和技术是否有效进行验证。在论文中,主要进行了以下几方面的工作。关于网络信息安全审计系统开展了相关功能方面的探索和讨论,并且就此提出了总体系统模型。在内容审计的基础上,对日志审计整个过程开展研究,同时设置了日志数据格式,实现了该项技术分析对象的清晰界定。日志数据XML格式是敏感词检测最为关键的对象。在对敏感词检测中,论文研究为了其结构信息的获取,特地对针对出现在Dewey编码中XML文档编码方式开展了深入的探讨和分析,其中利用直接表达的方式,针对孩子节点编码前缀选择了文档父节点编码。如此一来,可以更好的将节点结构、层级关系表示出来,能够方便地算出日志的结构敏感性是怎样的。给敏感词库配备相应的目录,这将会敏感词检测率提升的关键所在。本文针对目录的配备方式上选择了双数组Trie树,并且在这基础上,对在语义和结构信息上所建立起来的敏感词检测算法进行了研究。主要表现在下面两方面:1、计算语义的敏感度主要是依照节点的权重值和敏感词出现的效率来计算该敏感度。2、敏感词如果具备了具体结构信息则应当在检测当中实现敏感测结构信息以及语义的确定。并且关系到敏感词距离位置计算上,先要在语义上对其对应,之后实现结构相似性配对,如此一来,将会在敏感词检测当中考虑到结构信息的情况。本文在分析和研究当中,考虑敏感词检测技术基本状况,然后针对性将设计敏感词检测系统的原型用在网络安全审计中。并且把系统分为四个子系统:信息准备、用户接口、审计策略和检测引擎。并且在此基础上进行了系统的总体的结构的设计,把用户和系统之间相互进行的过程进行了分析和说明。并对各个子系统是如何设计的进行了详细的介绍和说明,合理地分解了在双数组Trie树索引结构上所进行的检测算法,同时将其在Hadoop集群环境中实现有效应用,进而达到对该系统的合理扩展。
其他文献
近年来,利用计算机信息技术实现对乐曲的编辑是音乐领域信息化技术应用的重要方向之一。从本质上说,借助信息技术可以实现对音乐的自动化生成,不同的计算机算法可以辅助乐曲编辑过程中实现最终满意的作曲结果。研究发现,利用启发式搜索算法,如人工神经网络、模拟退火算法、遗传算法等,可以有效实现乐曲编辑过程中的自我进化,实现乐曲编辑的高效控制。但从现状来看,绝大多数计算机算法在应用过程中表现出交互性较差,乐曲编辑
学位
目前,高校信息化建设发展日益成熟丰富,信息化基础设施建设、校园内部管理系统等均已广泛应用,大大提升了教职人员的工作效率。但是,学生群体如今并未完全的享受信息化带来的便利。实际上,学校很多信息已经通过信息系统来管理,但是与学生之间,并未有有效的信息传递。笔者是一所高职院校的学生管理工作人员,其中,高职院校的学生不仅需考核其文化课成绩,同时实训的表现情况及平时综合素质表现也是学生综合成绩考核的重要一环
学位
自改革开放以来,我国越来越重视市场经济的发展,继而出台了一系列满足现有经济发展需求的相关政策。在这一背景下,视觉识别系统设计应运而生。其最早出现的区域是在我国沿海地区,经过了几十年的应用和发展,其以标志设计为核心的视觉识别系统设计已经成为现代社会各个领域比较认可的一种设计方法,对其在设计领域的地位也比较认同。伴随着我国文化教育事业的不断发展,各类美术性质的职业高中、画院也纷纷引进了该种视觉识别系统
学位
当前互联网技术发展迅猛,与其相伴的是越来越多的安全威胁与网络攻击,网络信息安全事件越来越多。黑客攻击技术以及手段的不断更新,给网络安全带来的破坏日益严重。因此,各领域信息化工作可以得到可持续发展的前提是网络安全得到保障。现代信息化社会,计算机网络数据的流量增长迅猛,要求越来越高的数据传输速率,网络入侵的类型呈现出多元化的特征,所以,网络入侵检测的要求也就不断提高。基于此,本文主要对基于数据挖掘的网
学位
为掌握复杂条件下的工程地质情况,设计了一种基于BIM技术的山区高速公路地质勘察方法。提取钻孔地层位置信息与地质参数,引进BIM技术,构建山区高速公路地质模型;将内业采样数据与外业勘察数据录入模型中,进行勘察参数的融合与校正处理,至此完成山区高速公路的地质勘察。应用实例证明,通过该设计方法可以掌握结构层高度,实现对地层变化趋势的高度概括,为进一步掌握地质结构层的变化规律与特征提供参考与帮助。
期刊
OpenStack开源云计算管理平台近年来在相关服务中得到了普及和应用,在云存储的业务中,选择Open Stack平台的Swift组件来实现对象存储的文件管理功能。在存储系统中分布式文件系统Ceph的应用对云存储系统业务性能有着较大的影响,Ceph这一新兴的分布式文件系统由于具有扩容方便、可靠性高和并发性高等优点在云存储系统中具有良好的发展潜力。为了探究分布式文件系统Ceph在对象存储系统中的性能
学位
在现代社会发展进程中,民间美术非遗项目以其丰富多彩的属地化文化资源和独特的艺术表现形式引起了越来越多的关注,同时这一资源形态内部蕴含着中华文化发展的精神所在,承载着中国文化发展的重要任务,也是新时期社会发展的自信来源。在民间非遗项目发展中,民间美术资源、民间工艺和民间美术精神都面临着各种各样的挑战,如何进行有效地保护与发展显得尤为重要。民间美术非遗项目作为新型文化发展模式将成为打破我国传统文化发展
学位
从最初的纯文本信息展示到现在实时的海量订单处理,互联网的服务能力不断提升,相应的其对社会生活的影响力也不断提升。而作为互联网服务主要载体的web系统,也在为满足互联网服务需求的情况下,不断发展。现代web系统的功能性、交互性、实时性,相比于最初出现的只能提供静态图文页面的系统,已经有了质的飞越。更强大web系统意味着背后更强大的技术支撑。海量数据的存储、低时延高并发处理,新的挑战催生出越来越复杂的
学位
信息技术对教育发展具有革命性影响,必须予以高度重视,教育信息化的广泛应用是当今世界教育方式的一次深刻的历史性变革,它改变了高校教学、科研、管理、生活的方方面面,也成为了衡量新时代高校教育改革与持续发展、办学能力水平与质量的重要指标。目前,在高校数字化建设的推进过程中,多以网络媒体通信技术为基础开展校园数字化基础平台建设,但由于初期建设规划时数字化校园建设理论研究不够,对国内外教育信息化应用调研和可
学位
“教育大数据”概念正在不断深入影响着高校信息化建设规划,教育部印发的《教育信息化“十三五”规划》主要任务中指出要利用大数据技术大幅提升信息化服务教学与管理的能力,教育信息化已成为国家战略。大数据与教育的深度融合已成为必然趋势,高职院校建设智慧校园系统是实现教育大数据采集与应用的重要手段。因此,研究大数据视角下的高职院校智慧校园系统的规划,开展应用设计研究是富有应用价值的。通过对国内外智慧校园已有研
学位