网路安全数据可视化系统的设计与研究

来源 :兰州交通大学 | 被引量 : 5次 | 上传用户:yolanda0104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会呈现指数增长的数字信息,促使数据分析学科进入了一个蓬勃发展的黄金年代。一直以来,人们总是试图使用数据分析的方法,从源源不断的数据资源中探索出与我们息息相关的信息。在网络安全领域,使用数据分析来解决安全问题成为一个新的方法。人们收集到的各种安全日志数据的数据量巨大,如果没有分析工具的帮助人们将无法处理和使用这些数据。尤其是人们还需要解决快速地理解网络通信模式、识别网络异常点和发现网络攻击等一系列问题。网络安全可视化技术就是一种非常实用的技术。将可视化技术应用到网络安全领域,把庞大的网络数据转变成易于理解的视觉图像,利用人类视觉来获取数据模型和结构,构建起安全数据和认知之间的桥梁。可视化在网络安全领域的流行是必然的:人们需要筛选的数据越多,就越希望把数据转化成图像,把图像和文字并列显示。可视化成为一个重要的分析工工具,运用它能够直观地呈现出安全数据背后所表现出来的模式和规律,从而帮助人们分析网络现状,处理已经发现的安全事件以及及时预测未发生的潜在安全事件。同时,可视化分析工具能够帮助我们更好地理解安全数据,它帮助人们处理数据过载而节约时间,在告知人们信息的同时也让人们参与数据收集和分析的过程。本文依据网络安全可视化参考模型,借鉴分层架构的思想,研究并设计了一款针对网络安全数据可视化的web原型系统Nets.vis。该系统能够完成从数据处理到生成视图的过程。Nets.vis原型系统框架是一个分层、灵活、轻量级的网络安全数据可视化框架。该系统使用了服务器-客户端的结构,客户端在用户的浏览器中进行渲染,服务器端提供数据的获取、存储和分析并加载可视化组件。Nets.vis原型系统主要由以下7层构成:(1)数据预处理层。主要对源数据进行数据清洗,将脏数据、无用的数据、错误的数据去掉,得到干净可用的数据。(2)数据导入层。该层主要负责将MySQL数据库中的数据导入到HDFS中。(3)数据存储层。Nets.vis原型系统的所有实验数据均保存在HDFS中。(4)数据管理层。整个Nets.vis原型系统的数据仓库的数据都是由Hive来管理,也就是说,所有的数据都是由数据存储层以Hive表的形式输出到数据管理层。(5)数据服务层。在这一层,根据分析的需求,基于数据仓库的数据进行各种分析和数据挖掘。(6)数据应用层。数据服务层的数据必须导回到关系型数据库中,这是由于Hive执行的高延迟不适合用来生成最终的可视化结果。(7)可视化层。用户通过浏览器查看最终的可视化结果。整个Nets.vis系统的需求功能可以概括为:数据预处理、数据导入、数据分析、生成视图。本文主要从以下几个方面展开研究工作。首先,通过在Linux系统的服务器上部署Hadoop系统,实现了对大规模数据的存储和管理。Hadoop系统提供的Hive数据仓库可用于存储数据,Sqoop可实现关系型数据库MySQL与Hadoop之间的数据传输。研究中服务器端的数据导入、存储及相关数据分析模块均基于Hadoop平台。使用Sqoop实现从关系型数据库MySQL中导入数据到数据仓库Hive中,再将分析后的结果导回到MySQL数据库中。客户端使用Spring MVC对Web端进行架构,并使用Bootstrap优化原型系统的可视化界面。其次,由于在本文的Nets.vis可视化原型系统里,经常会涉及到查询等操作,因此优化Hive的数据分析模块的相关操作效率十分重要。本文使用空间亚线性算法对数据提取、转换、加载、查询等操作效率进行优化改进。其中,使用寻找频繁元素的Misra-Gries算法,通过计算找出出现最频繁的元素。例如在网络中找到频繁出现的IP地址;使用估算不同元素的数量算法来估算数据流中不同元素的个数,例如可以用于统计某个页面的访问ip数。与此同时,在数据分析模块使用Canopy聚类结合k-means聚类对源IP进行分析。在数据分析模块中选取属性维度时,本文选取概率论和统计学中一种常用的皮尔逊积距相关系数和相关矩阵来验证维度间的相关性。然后,Nets.vis原型系统的可视化模块其主要目的是用于按照用户的意愿进行数据集合的筛选。在可视化模块中,本文主要使用Echarts和D3两个可视化工具设计了符合网络安全数据属性的可视化组件,包括:气泡图、Treemap、平行坐标图、关系图、条形图、折线图以及矩形热力图。本文设计实现了基于SVG的可视化组件渲染方法,可以使可视化的结果更加丰富且直观。同时,使用Brich算法对气泡图进行了布局上的改进。最后,本文采用“先总体后细节”的可视化指南,选取Nets.vis原型系统中的部分可视化组件,使用Vis China 2015挑战赛提供的Tcp flow日志数据来验证Nets.vis系统的可行性。第一步,使用层次聚类改进过的气泡图、条形图以及关系图,找出了网络中的服务器与客户端,挖掘了网络的拓扑结构。第二步,对服务器分别按照协议特征以及时间序列特征进行分类。第三步,挖掘网络流量特征。对于流量特征的挖掘,本文考虑结合网络流量数据具有的层次结构属性和时序属性:以折线图实现数据整体时序特征的可视化,发现网络“节假日模式”和“工作日模式”。第四步,以树图实现数据局部时间特征的可视化,发现产生异常的特定主机。实验证明:使用Nets.vis系统可视化分析Tcp flow数据集,实现了由整体到局部的网络分析,通过该系统能够完成对网络服务与客户端的确定、对服务器进行分类、识别网络流量模式以及发现网络异常,便于分析人员对网络的管理以及对网络安全事态的感知。
其他文献
茶园的除草、施肥、松土是茶叶生产过程的重要环节,茶园传统的除草施肥松土方式都是人工操作,作业效率低,劳动强度大。现有微耕机具有整机尺寸小、结构稳定、综合效率高、操
利用KMV模型建立地方政府债券信用风险模型。简要介绍模型后,根据江苏省相关数据,依次计算出模型中所需要指标。最终,运用计算的指标,得出2009年江苏省地方政府债券的合理发
房地产市场运行既具有一般规律性,又在不同国家和地区表现出特殊性。在分析中国转轨经济和社会文化特点的基础上,探讨了中国大城市房地产泡沫的形成原因,认为强劲增长的真实
秸秆是生物质能的重要组成部分,我国是一个农业大国,其秸秆资源十分丰富,产量约为7亿吨,主要以水稻秸秆、小麦秸秆以及玉米秸秆为主。目前有部分农民处理秸秆的方式是将其焚
建筑业是京津冀地区主要的钢铁消费领域。本研究以动态物质流分析为基础,测算了1949~2016年京津冀地区房屋建筑中的钢铁存量,并在此基础上,初步探索了驱动钢铁存量变化背后的
本文首先分析了语义格和语义属性的区别 ,指出定中结构的语义应当运用语义属性系统进行分析 ,然后对现代汉语语义属性系统的状况作了简要的描述。
目的了解质粒介导的超广谱β-内酰胺酶(ESBLs)、头孢菌素酶(AmpC)及喹诺酮类耐药(qnr)基因在阴沟肠杆菌中的分布,分析耐药阴沟肠杆菌株间的分子同源性,为指导临床有效控制耐
汉语口语考试(SCT)是由北京大学和培生公司合作开发的一项自动化口语考试。为了验证该考试的有效性,项目组花一年的时间收集了各方面数据。本文对考试的信度、试卷内部结构和
针对目前国内区域国土资源整体优劣势及其配套组合评价不足的情况,本文通过山西省临汾地区国土资源综合评价的实证研究,从一般系统论的思想和观点出发,探索和总结了国土资源评价
为研究含有内螺纹的微通道对气液泰勒流的影响,文中结合VOF多相流模型对微通道内气液两相流进行了数值模拟。主要分析了螺纹对称程度、螺纹高度、螺纹宽度对泰勒流型以及管内