基于模式匹配和机器学习的协议识别技术研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:liongliong567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协议识别技术是实现流量监控、入侵检测以及用户行为分析等应用的基础。随着互联网的发展,新型的网络类型不断出现,新的协议规范很多都不再对外公开且使用随机的端口。另外,由于信息安全或用户隐私的问题,有越来越多的网络流量被加密,这些都使得协议识别面临和需要解决的问题越来越复杂。所以,寻找更加高效的协议识别方法有着重要的研究和实际应用意义。基于内容的协议识别能够达到很高的准确率,基于流统计特征的识别可以识别加密流量且有较好的吞吐性,这两种协议识别方法是当今协议识别中应用最广泛的。本文主要是通过改进这两种协议识别方法中的匹配算法的性能来提高协议识别效率的,具体的研究工作主要包括以下几个方面:1)提出基于模式匹配和机器学习的协议识别系统。该系统结合这两种协议识别技术的优点,可以通过模式匹配方法实现对协议内容的高准确率的识别,也可以利用机器学习方法识别出加密的流量,并可以对协议特征库不断更新。2)研究和分析了常见的模式匹配算法,并提出了一种改进的BM算法。该算法可以减少算法预处理复杂度,并充分利用失配时候的信息,提高最大跳跃距离,并考虑了更多情况,提高模式串达到最大或者较大跳跃距离的概率,从而提高了匹配的效率。3)提出了一种ESBS-GA特征选择方法。在现有的特征选择方法的基础之上,用遗传算法对现在常用的一些流量特征进一步筛选。ESBS-GA能够筛选获得特征个数更少,且分类效果更佳的流量特征集合,简化了Kmens分类过程,大大提高了分类性能。4)研究和分析了常见的机器学习算法,针对K-means算法中K值较难确定的缺点,提出一种基于二分查找法的K值优化方案。通过结合二分查找法,能够更迅速的确定出比较接近实际分类个数的K值,并且在该K值下,能够获得很好分类效果。
其他文献
DS-CDMA通信系统已经在军事和民用通信中得到了广泛应用,特别是在某些特定环境下,随机接入、组网方便的异步DS-CDMA系统更加适用。然而异步DS-CDMA中各用户接入的不同步性会
自适应波束形成技术是阵列信号处理中一个重要的研究方向,其在通信、雷达、声呐、语音处理、医学成像等领域,都有着广阔的应用前景。传统的波束形成方法旨在保持期望信号一定
随着智能电网数据采集系统不断建设和发展,越来越多的智能仪表被装入电力网络,用以获取电网和用户的实时数据。这些实时数据具有数据量大、采集频率高等特点,而且数据间关联性较强。在售电侧改革情景下,这些海量数据的潜在价值逐渐被挖掘与应用。本文以智能电网中用户用电行为的特征提取与用户聚类方法、“网-荷”互动模式为两大研究点。首先介绍了智能电网用户用电行为分析理论框架以及应用场景,重点分析了提取动态马尔科夫模
随着网络通信技术的发展,以隐蔽通信为目的的隐密术受到了社会的广泛关注。隐密术是指将秘密信息嵌入到载体数据的冗余位置,利用公开信道以不被察觉的方式进行秘密通信的技术
在近几年中,随着云计算技术和移动终端服务的快速发展,通信网络承载的业务流量迅速增多,通信网络在人们日常的生活工作中扮演的角色越来越重要,用户也对通信网络的承载能力、
网络作为至关重要的基础资源,随着需求和规模的急速扩张,一方面促进了网络技术研究人员对于新体系、新技术的研究,另一方面由于现有网络结构日趋复杂以及网络设备相对封闭,使
随机模拟技术是地质统计学的新发展,在储层建模中由于地质环境的复杂性及观测数据的间接性和微量性,为储层建立的模型存在很高的不确定性。随机模拟是为储层建立随机模型并产
伴随网络与多媒体技术的日益发展,可实现高压缩比例同时又能满足用户不同需求的图像压缩技术愈显出其重要性。感兴趣区域编码技术是指针对人们的喜好,将图像划分为背景区域(B
文本的向量表示是指从文本中挖掘和学习其中蕴含的语义信息,并将其表示为具体的实数值向量,以便计算机进一步处理后续自然语言处理任务。最简单常用的文本表示方法为词袋子模
无源毫米波探测成像系统利用高灵敏度接收机接收人体自身辐射的毫米波能量信号,利用人体与隐匿物发射率的差异实现成像。其无辐射、方式隐蔽、非接触、分辨适度,对被检人员不