思考聚类算法下网络应用协议识别系统的实现

来源 :中国信息化·学术版 | 被引量 : 0次 | 上传用户:robotech
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】一直以来,网络应用协议识别都是网络技术研究的难点与热点问题,属于网络安全系统的核心。在当前,主流的网络应用协议识别方法主要为基于网络流行为的网络应用识别方法及基于载荷的网络应用协议识别方法,这两种网络应用协议识别系统都存在着一定的局限性,为更好地分析真实网络中存在的网络数据,对有效区分应用协议网络流特征向量进行统计与挖掘,提出建立聚类算法下网络应用协议识别系统。本文从网络应用协议识别系统的研究现状出发,提出建立聚类算法下网络应用协议识别系统,并对几种聚类算法进行简述,最终通过实际试验证明了聚类算法下网络应用协议识别系统具备良好的识别效果。
  【关键词】聚类算法 网络应用协议识别系统
  【中图分类号】G250.72【文献标识码】A【文章编号】1672-5158(2013)07-0143-01
  随着互联网应用技术的不断发展,互联网网络应用日新月异,层出不穷,致使网络流量日趋复杂化。在互联网发展之初,仅仅存在着简单的几种协议,如HTTP、FTP、SMTP,伴随着即时通信、视频、P2P等技术的发展与应用,让互联网中承载的内容日趋多样,尤其是P2P资源共享技术,实现了用户之间对等的资源共享。随着网络应用种类的不断增加,为网络管理与运行带来了极大的挑战。加上当前人们对网络应用的依赖程度越来越高,对网络的实时性提出了更高的要求,从而推动了网络带宽技术的进步。然而,面对庞大的网络流量,网络安全系统需要进行更大数据量的处理,更是对流量实时处理提出了更高的性能要求。
  一、网络应用协议识别系统研究现状
  网络应用协议识别系统属于网络安全系统的核心,通过网络应用识别系统,可以快速准确地识别出网络流中所应用的业务,并控制各类网络应用协议的使用带宽,限制非授权网络应用宽带需求,满足授权网络应用的带宽要求,通过这种方式,分配网络容量,深化网络流量安全检测,进一步提高网络服务的质量,为用户带来更好的网络体验。
  在当前,网络应用协议中网络流呈现出静态特征与动态特征。根据网络应用协议识别方法的使用特征,大致可以分为三个种类,分别为基于网络流行为的网络应用识别方法、基于载荷的网络应用协议识别方法与基于端口的网络应用协议识别方法。
  (一)网络应用协议中网络流特征
  在不同的网络应用协议中,存在着不同的流量特征,这些流量特征是建立网络应用协议识别的基础。主要的流量特征包括流行为统计特征、端口特征及应用层负载数据字符特征等,这些网络流表现出静态特征与动态特征。
  1.网络应用协议的静态特征
  静态特征,在所有网络协议中都不会随着时间与空间因素的变化而发生改变,具备固有特征。静态特征主要是对数据报所携带的数据内容进步处理分析,最终对不同网络应用协议特征进行区分,静态特征主要包括应用层负载数据字符特征与端口特征两种。
  静态特征中应用层负载数据字符特征主要指的是应用层中用户的数据会存在特定的特殊字段,如在P2P网络应用的控制报文中,报文应用层所携带的数据会具备一些特定存在的字符。通过网络流检测技术,针对报文中所携带的特定字符判断出报文是否属于P2P文件共享应用所发报文,然后进行网络流的管理与控制。随着网络应用领域不断扩大,人们对信息传递的安全性提出了更高要求,更是将加密机制应用在网络应用之中,在防止信息泄露的同时,也隐藏了网络流数据字符特征,导致网络流数据特征不能快速及时地识别出网络应用协议。
  2.动态特征
  动态特征,指的是在某一种网络应用协议中,随着时间与空间因素的变化而出现不同结果,动态特征又被称之为网络应用行为特征,需要一定的连续时间与空间积累才可以将动态特征显示出来。
  (二)网络应用协议识别方法研究现状
  1. 基于网络流行为的网络应用识别方法
  基于网络流行为的网络应用识别方法主要是对数据报中行为特征进行统计,并将统计结果抽象成多维向量,结合机器学习方式,对多维向量间大小关系进行识别,最终对网络流应用协议进行判断。这种方法扩展性良好,可以发现新特征流,局限性是难以通过简单匹配的方式完成应用协议识别。
  2.基于载荷的网络应用协议识别方法
  基于载荷的网络应用协议识别方法采取还原技术与协议分析的方法,针对数据报采取深度检测,获取应用层所携带的数据内容,并对其数据中包含的内容进行分析,最终呈现出协议正则表达式,通过协议正则表达式判断网络流中所应用的网络协议,对网络流进行管理与控制。这种识别方法精确度高,维护简单,其局限性在于不能实现隐私保护,对新型应用实用性较差等。
  3.基于端口的网络应用协议识别方法
  基于端口的网络应用协议识别方法主要应用于传统的互联网应用协议识别系统中,在传统互联网应用中,服务端口具备统一规范的特性,加上协议的数量较少,采取端口的网络应用协议识别方法十分有效,且技术实现简单,开销较小,能够优化网络性能,提高网络服务的质量。但随着端口自定义的出现及应用,庞大网络流量及网络协议种类不断增加,越发显示出基于端口的网络应用协议识别方法的落后。
  二、基于聚类算法的网络应用协议识别系统及聚类算法
  聚类算法,其核心为是将相似对象聚成为一个簇,对不同对象进行分类处理。基于聚类算法的网络应用协议识别系统,将网络流视为相似对象,通过有效区分网络流特征地提进行聚类,将相同网络协议的网络流聚成为一个簇,从而判断出网络流所使用的网络协议。
  (一)基于聚类算法的网络应用协议识别系统实现的总体流程
  基于聚类算法的网络应用协议识别系统实现的总体流程如下:对正在传递的网络流量进行抓取;对网络流量中数据报通过特殊网络流划分方式进行划分,获得不同的网络流;对每个网络流所携带数据进行提取,并将提取结果与每种网络应用协议中存在的匹配正则表达式作匹配处理;通过匹配处理分析出网络流使用的网络协议;如通过匹配处理分析出网络流使用的网络协议,则进行网络流管理与控制;如不能通过匹配处理分析出网络流使用的网络协议,则提取网络流中特征向量,将网络流特征向量及标识存储到网络流信息数据中;采用聚类算法对网络流特征进行处理;通过判断每簇所含有的网络应用协议,判断出网络应用协议的类型。
  (二)聚类算法
  1.K-means聚类算法
  当前,最为经典的聚类算法就是K-means聚类算法,其算法实现的思想是:随机的选择出空间中某个点作为中心,进行聚类,划分出不同的簇,然后使用迭代方式,对各类聚成中心值进行更新,最终实现良好的聚类结果。
  2.网格密度聚类方法
  网格密度聚类方法可以发现任意形状的聚类簇,通过网格密度聚类方法,对低密度区域进行过滤,发现样本密集处,最终发现任意形状的聚类簇。这种计算方法的目的是明确密度相连对象的最大集合,并对结果进行分析。
  3.EM聚类算法
  EM聚类算法可以实现对非完整数据集中计算,属于一种简单实用的学习方法。通过迭代最大化完整数据对数似然函数期望进行最大化不完成数据对数似然函数,最终获取模型估计参数。
  三、结束语
  随着互联网科学技术的进步与网络的普及,人们对网络的依赖程度越来越高,各种网络应用,为互联网网络带宽资源的优化配置带来了极大挑战。通过对网络应用协议识别,可以有效实现对网络应用流量的管理与控制,限制不合理网络应用,优化网络带宽配置,提高网络服务质量。当前主要的网络应用识别协议为基于网络流行为的网络应用识别方法及基于载荷的网络应用协议识别方法,这两种方法存在着一定的局限性,本文提出建立基于聚类算法的网络应用协议识别系统,并通过实际试验,证明聚类算法的网络应用协议识别效果显著,值得推广应用。
  参考文献
  [1] 梁波. 基于聚类算法的网络应用协议识别系统的研究与实现[D].山东大学,2012
  [2] 杨爽.基于双重特征的网络应用协议识别系统[D].北京交通大学,2012
  [3] 刘炯,徐同阁. 基于NetFlow的应用协议半监督识别算法[J].计算机技术与发展,2010,07:9-12+16
  [4] 谭骏,陈兴蜀,杜敏.基于BPSO与神经网络的实时P2P协议识别算法[J].中南大学学报(自然科学版),2012,06:2190-2197
其他文献
【摘 要】中铁资源苏尼特左旗芒来矿业有限公司地面储装系统采用AB公司可编程控制器、GE公司组态软件、工业工控机、三星大屏显示器、及先进的视频监控软件,对全厂电气系统、控制系统、探测系统进行集中控制和监视,实现了生产自动化,取得了显著的社会、经济效益。  【关键词】自动化控制;组态软件;可编程控制器; 监控  【中图分类号】F407.21【文献标识码】A【文章编号】1672-5158(2013)07
【摘 要】原采暖凝结水采用2套疏水管直接排入疏水箱,再经疏水箱溢流后进入工业水汇水池。由于采暖排水量过大,疏水箱受压变形,有损坏的可能;因换热器在最冷时要求供水温度高,所以疏水为汽水混合物,疏水箱排汽管、工业汇水池排汽管冬季冒汽量大、带水,在2011年冬季因冒汽量大、带水等原因,导致8米检修彩板房被蒸汽凝结的冰压塌,道路结冰等,严重影响正常生产。  【关键词】换热器、疏水、设计改造  【中图分类号
【摘 要】光通信技术也可以称为自由空间光技术。光通信技术是近几年最为热门的新型通信技术,以其自身的优点,逐渐被社会的各个领域所应用。本文主要分析了光纤接入网基本原理、存在的问题以及接入网中的应用。  【关键词】光通信技术;用户接入网;光纤接入网  【中图分类号】TJ768.4【文献标识码】A【文章编号】1672-5158(2013)07-0141-01  随着人们的生活水平越来越高,对通信业务量的
【摘 要】计算机软件系统故障是影响计算机正常运作的一大杀手,其给计算机用户带来极大的困扰,所以对计算机软件系统故障予以确诊与处理极其重要。本文将从病毒感染、系统故障及程序故障三个方面对计算机软件系统故障进行确诊。同时,通过分析计算机软件系统故障时出现的信息,准确了解引起软件故障的原因,只有有针对性的采取有效措施对系统故障进行处理,从而确保计算机软件系统得以高效有序运行。  【关键词】计算机软件系统
【摘 要】本文针对3G发展的现状,从终端和业务方面对3G业务未来发展趋势进行分析,提出自己的一些见解。  【关键词】3G业务 发展趋势  【中图分类号】TN929.5【文献标识码】A【文章编号】1672-5158(2013)07-0133-01  伴随着社会的不断发展,移动通信技术也得到了长足的发展,移动增值业务成为了运营商的新的经济增长点。在3G快速发展的同时,也应该看到存在的局限性。由于网络质
【摘 要】计算机技术发展越来越迅速,技术发展方便了人们生活和工作,随着计算机发展步伐提高,数据库的应用也开始普及起来。该应用方式提高了人们的工作效率,方便企业进行资源管理。然而,应用系统存在各式各样的问题,常常出现数据库资料被盗取,数据资料被篡改等问题出现。计算机数据库入侵检测技术的引入,对数据库的安全起到举足轻重作用,对数据安全性有着重要保障,该技术也成为了未来计算机信息安全的保障将大量引入的技
【摘 要】卫星广播是解决广播电视大面积覆盖最先进的、有效的技术手段。由于卫星电视直播覆盖面积大、下行信息传输频带宽、接收信息质量高等特点,目前,通过卫星观看数字电视的观众日益增多。卫星地面接收站是整个系统中关键环节之一,本文简要谈谈卫星广播电视接收站的技术维护管理。  【关键词】卫星广播电视;地面接收站;维护管理  【中图分类号】TN938【文献标识码】A【文章编号】1672-5158(2013)
【摘 要】本文通过对某变电站GIS设备内部故障检测处理的过程进行分析,总结了局部放电测量试验在检测GIS设备内部故障的应用的效果。  【关键词】G I S;局部放电测量;故障  【中图分类号】V242.3+1【文献标识码】A【文章编号】1672-5158(2013)07-0155-01  引言  随着电网的迅速发展,具有结构紧凑、占地面积小、可靠性高、环境适应能力强,维护工作量很小等一些列优点的气
【摘 要】文章分析了目前电力通信网络中通信电源监控的现状,以IP方式的通信电源监控在忻州电力中的应用为例,着重介绍了IP监控系统的功能、组成、体系结构以及应用,充分阐述了IP方式通信电源监控的优越性,即对通信电源的实时监控更加方便、快捷,进一步提高了通信电源的稳定运行。  【关键词】通信电源监控;功能;应用。  【中图分类号】TN86【文献标识码】A【文章编号】1672-5158(2013)07-
【摘 要】浅谈热工仪表在火力发电厂中的应用,分析其故障原因及处理办法,并对测量仪表进行改进和优化整合,有效地提高测量仪表的准确性和降低生产成本。  【关键词】 热工仪表 应用 故障分析 改进 优化  【中图分类号】F407.61【文献标识码】A【文章编号】1672-5158(2013)07-0156-01  1 前言  当前, 随着高参数、大容量火力发电机组的不断投入,对发电机组的自动化水平和热工