论文部分内容阅读
随着应用类型的多样化发展,互联网逐渐成为日常生活中不可或缺的交流平台。人们在享受互联网海量信息带来的便利的同时,也意识到安全与隐私的重要性。加密技术的应用使得网络控管的难度增加,所以从海量数据中识别加密流量是十分重要的。现实网络环境中的加密流量比例很小,传统的识别方法容易造成错误分类,进而对于加密流量的识别度很低。本文针对网络流量的不平衡环境中,加密流量的识别开展研究。本文首先对类别不平衡问题进行了相关研究,分析了数据集本身对分类的影响,并对传统分类器性能的评价准则进行讨论。对机器学习方法在流量识别上的应用进行了总结,并从中选取两种方法用于处理类别不平衡数据集。研究了过抽样技术,分析了以互信息为度量准则的可实施性,并根据Neyman-Pearson准则对分类器进行性能优化。然后,通过对加密流量的识别和类别不平衡的处理的分析,本文设计并实现了一个静态检测分类系统,达到在一定程度上控制误报率的同时,提高对小样本加密流量的识别。采用过抽样方法对不平衡数据进行预处理。设计了基于互信息最大化的聚类方法,从而实现对于K-Means算法聚类簇数目设定的优化。采用风险函数和代价敏感方法,优化分类器识别小样本的准确率,并构造一个多类别二元分类器序列,实现错误分类的样本数最少,从而提高分类器对小样本的识别。此外,分类器序列能够识别未知应用类型。最后,采用公开数据集对系统模型进行测试,分别对聚类模型和簇内分类模型进行研究,并分析了影响性能的因素。实验结果显示,系统对Skype流量的识别率有显著提高,有较好的实用性。