论文部分内容阅读
随着互联网的快速发展,网络资源管理和网络安全控制日益受到国家、政府、企业以及个人的关注。通过互联网,人们可以获取信息资源、获得娱乐服务等。那么,伴随着人们对互联网的使用,每天都会产生巨大的网络流量。如何有效分析和利用如此大量的网络流量,将直接影响到网络资源管理和网络安全控制。网络流量分技术就是分析和处理网络流量的一项关键技术。传统的基于端口和基于负载的网络流量分类技术分别存在动态随机端口和隐私纠纷的问题。所以,为避免上述问题,本文将采用统计特征和机器学习相结合的方法分类网络流量。但是,目前大部分工作都没有考虑网络流量存在噪声(应用类别标记错误)流量的情况。在实际应用中,往往存在部分标记错误的网络流量,而错误标记的网络流量往往影响建立精准的分类决策,导致较低的分类准确性。同时,在有噪的网络流量分类领域,学术界或工业界从业人员在处理相关问题时,无法从已有工作中获得理论和技术支持。目前还没有工作分析总结主流网络流量分类算法应对有噪网络流量分类时的性能。根据以上所述,本文主要开展如下两项工作:(1)基于网络流量存在应用类别标记错误的问题,针对网络流量分类领域主流的几种算法,实验验证和分析该算法在有噪网络流量分类过程中的性能,以便为相关工作者开展相关工作提供支持。为实现多维度分类算法性能的评估,本文采用公认的准确性和F-measure衡量指标,以及本文提出的有噪平均准确率、全局容噪率、类有噪准确率和类容噪率共6种衡量指标进行实验评估。同时为充分验证噪声比例和训练集规模对分类结果的影响,实验会分别固定训练集规模改变噪声比例和固定噪声比例改变训练集模规。实验结果展示,有噪网络流量对算法的分类性能影响较大。仅有少数算法在有噪情况下保持略好的性能。(2)基于上述分析,本文提出一种抗噪的统计特征网络流量分类新方法。该方法合并噪声清除和噪声容忍的思想。噪声清除主要基于多分类器集成和协同过滤原则来鉴别和清除确切的噪声数据。噪声容忍同样基于多分类器集成和协同过滤的原则,并且考虑从不同噪声等级的数据集中随机抽样wk比重的训练集组成鲁棒的训练集,最后基于随机森林生成鲁棒的分类器。本文首先从理论上分析该方法的有效性,然后通过实验验证该方法的性能。在实验分析中我们用该方法与目前主流的方法进行比较,而后与相关领域最新的考虑相关性的网络流量分类方法比较。理论分析表明本文中提出的方法在分类有噪的网络流量过程中的有效性。实验结果表明本文提出方法的性能优于对比的其他方法,即在有噪网络流量分类中依然能保持较好的分类性能。通过本文对主流机器学习方法分类有噪声网络流量过程中的性能分析,以及提出新的抗噪的网络流量分类方法,希望能为有噪网络流量分类工作提供有价值的参考,能够有效改善有噪网络流量极大影响分类性能的问题。