论文部分内容阅读
随着大数据时代的到来,数据开始呈现爆炸式的增长,越来越多的互联网用户被淹没在数据的海洋中。因此,如何从海量邮件中快速检测到含有敏感信息的邮件已经成为目前亟待解决的问题。邮件敏感词的检测与告警是指通过制定敏感词词库,将邮件的内容信息与敏感词词库进行匹配,从而找出含有敏感信息的非法邮件,并对其进行告警。但是,传统的邮件敏感词检测与告警技术在具体应用中一般都忽略了对附件文本的检测,检测算法也不适合处理超大规模的数据量,并且其告警规则也简单粗略、非法邮件的抓取率低,因此存在很多弊端。本文结合某公司信息安全审计系统实际项目,研究了邮件敏感词检测与告警的相关技术。本文从研究背景、研究意义和研究现状入手,分析了敏感词检测与告警的相关技术及其现状,总结了现有检测算法与告警技术的不足。在此基础上,研究了基于中文分词的敏感词检测算法与基于决策树制定规则的告警技术,从而在一定程度上缓解了邮件敏感词检测所面临的主要挑战。最后,基于MapReduce、Hive、HBase、R等工具,本文在Hadoop平台上实现了这些算法,并初步构建了一个基于敏感词检测与告警技术的邮件安全监测原型系统。总结起来,本文的主要工作内容包含了以下几个方面:1)针对邮件附件数据量庞大而不被检测的问题,研究了当前主流的中文分词方法,将数据量庞大的附件内容划分成词语,再让这些词语进行敏感词匹配,从而降低了对邮件进行敏感词匹配的算法复杂度。2)针对传统告警规则简单粗略、非法邮件抓取率低的问题,采用当前主流的决策树算法制定规则,并制定了白名单、黑名单及人工检查的校验制度,从而更科学有效地制定出告警的规则。3)针对传统敏感词检测的大数据处理以及算法的可扩展性问题,本文将敏感词检测算法部署到了Hadoop集群上,让算法并行化处理,进一步提高系统的可扩展性。将邮件内容信息放在HBase中,可以解决大规模数据量的存储问题。将敏感词检测结果放在Hive中,可以高效地对大规模数据进行分析。4)在MapReduce、HDFS、HBase、Hive、R等的帮助下,设计并完成了一个邮件敏感词检测与告警的原型系统,为下一步的研究奠定基础。