论文部分内容阅读
随着计算机网络的快速发展,互联网上的信息量日益增多。对互联网上流传的信息进行有效的检测、分析、响应和管理,监测可能导致突发事件的舆情信息,及时制止色情、暴力、反动等不良信息的恶意传播,是当前网络管理和安全面临的主要问题。
随着信息网络管理范围的不断扩大,信息的来源和获取量也将不断增大,将面临着海量信息无从处理的局面。因此利用海量信息存储和数据挖掘等技术,构建网络安全管理平台,支持各种安全信息的采集、处理和分析,是十分必要和有意义的。本论文主要研究网络安全数据的处理和管理问题。这里的安全数据是指与网络安全相关的事件或信息,包括网络安全事件、日志文件和BBS热点信息等。
本文研究的安全数据均来自网络安全管理平台采集到的数据,包括IDS告警、邮件处理系统的告警,以及BBS论坛信息等。针对告警信息,本文在BIRCH的分层次思想中引入预定义的规则库进行聚类,以提高聚类的收敛效果;同时,把该关联算法与Hadoop的Map/Reduce相结合,实现了算法的并行化计算,在一定程度上提高了算法的运行效率。对BBS论坛信息,本文主要研究两项技术:关键词抽取和情感倾向分析。关键词抽取是利用BBS数据的一些特征,抽取重要的词来代表文章的主题,统计热门关键词;倾向性分析是对于每个话题,对每个发信人发表的文章的观点识别其正负面,以便找出负面信息予以过滤。
本文搭建了网络安全管理平台,设计和开发了网络安全数据分析和管理系统部分功能模块。并对相应的分析算法,进行了性能评估和测试。对告警事件的聚类性能测试表明关联算法可以有效减少告警,缩短关联分析的执行时间。对于BBS的关键词抽取方法,分别从查准率和覆盖率两方面进行评估,对于情感倾向识别,选取不同的分类特征,并对分类效果进行了比较和讨论,为进一步的改进工作打下了基础。