用优化的正则表达式引擎进行快速网络流分类

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tyybj2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从互联网诞生以来,网络流分类就成了众多网络相关任务中的一种,也逐渐成了人们集中研究的对象。网络流的分类与识别是网络流量工程、入侵监测与防御、包过滤、网络设计与规划等网络行为的前提和基础,因此准确高效地识别网络流对于分析网络发展趋势和检测网络异常行为都有着很重要的现实意义。本文主要研究快速网络流分类优化技术,包括面向网络流的正则表达式匹配技术和基于云计算平台的大数据网络流分类技术。对于正则表达式匹配技术,目前应用的系统是基于NFA (Non-deterministic Finite Automata)的匹配技术和基于DFA (Deterministic Finite Automata)的匹配技术。NFA技术匹配速度较慢,因此人们把目光投向了匹配速度更快的DFA技术,DFA具有O(1)的快速状态转移时间,却带来了空间爆炸的缺陷,需要对DFA进行空间压缩优化。另一方面,随着现在网络通信量急剧增长,俨然进入了大数据领域,单机下已经不堪重负,无法有效的完成流量分类任务,需要针对大数据流量的分类方案。具体来说,本文的研究工作及方法主要集中在以下两个方面:(1)使用优化的DFA空间压缩技术和状态匹配速度提高技术进行快速网络流分类。通过调研DFA空间爆炸的本质因素,研究出合适的空间压缩算法和数据结构对状态和转移边进行压缩。由于在对DFA进行空间压缩后,其状态转移查询可能没有直接访问传统DFA的状态转移二维表快速,即经过空间压缩后匹配速度可能会有所降低。为此,我们从提高匹配成功的速度和匹配失败的速度两方面来进一步提速,并与传统的DFA匹配效率进行对比。(2)研究基于Hadoop云计算平台的大数据网络流分类技术。运用Hadoop Streaming技术将单机下的网络流分类系统部署到Hadoop平台下,解决Hadoop平台本身不支持二进制网络流输入格式的问题,并通过Hadoop平台调优技术优化各参数,使其更好的应用到云平台上,从而能够充分运用云平台的并行技术实现快速网络流分类。经过实验论证,我们提出的DFA优化技术能达到平均99%的压缩效率且压缩后的匹配效率是原DFA的3-5倍。另外随着流量数据的增多,在Hadoop平台下进行分类的优势越来越明显,远超过单机下的分类效率。本文提出的这两种技术给大数据网络流的快速分类和实时分类带来了借鉴意义,有一定的应用价值。
其他文献
本文从实际应用出发,设计了嵌入式通信处理器的硬件平台,并进行了此平台系统软件的引导、移植以及应用程序的开发,最终实现了此通信处理器的多串口通信和网络通信的功能。本
动词对论元的语义选择限制一直是自然语言处理研究领域的一个备受关注的问题。以往的研究者对动词语义约束优选问题的研究主要在句子级别进行,考虑的都是动词作为句子的中心
由于电信管理网(Telecommunications Management Network,TMN)越来越复杂,网络功能不断增加,基于传统的TMN标准的各种管理应用开始显示出其一定的局限性。CORBA(Common Objec
在这个数字信息爆炸的时代,信息总量以几何级数增长,数据在计算机上的本地存储系统已经不能满足大量信息处理和对数据安全的需求,分布式的存储方式应运而生。这种存储方式将
买3D彩票看似靠运气,没有规律可循,其实还是有一定的技巧。使用一个设计合理、功能丰富、设置灵活的辅助选号软件,可以使中奖的概率略大一些,机会就相对多些。也许就是多出的
随着3G移动通信的逐渐普及,多媒体通信业务将成为移动网络的主流业务之一。随之而来的是我们称之为“Flash Crowds”的服务器过载和网络拥塞状况也在移动网络中出现了,如何解决
随着社会保障制度的不断完善和政府部门信息化水平的不断提高,数据信息呈爆炸式增长,传统的手工审计已无法完成要求,计算机审计将成为主要的审计方式。但是因为一般的审计专
城市化的快速发展使得各种大型建筑出现在人们的生活中,当人们第一次置身于这些大型建筑中时,从这个陌生的环境中找到要去的地址有时是一件很困难的事。但是随着网络的普及特
PMI(Privilege Management Infrastructure)是权限管理基础设施或授权管理基础设施,它由属性证书、属性权威、属性证书库等组成,用来实现权限和证书的产生、管理、存储、分发和
学位
在非可信环境下对数据进行加密是保护数据库中数据安全的一种有效方法,但如何对加密数据进行高效地查询是一个难点。为了在密文数据库上进行高效查询,设计了一种数据库中字符