基于聚类和有噪声数据的网络流量分类

来源 :广州大学 | 被引量 : 0次 | 上传用户:SYNJONES123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确的网络流量分类在网络安全领域中至关重要,有很多应用程序使用动态端口和加密算法来规避检测,而诸如基于端口和基于载荷的分类方式存在很大的不足。后续又出现了将机器学习算法运用到流量分类领域。以往的流量分类只是单独的对数据做聚类或者分类分析,对于聚类的结果并没有研究如何实现快速有效标记。同时对流量分类进行有监督方法时,大家研究的焦点主要集中在如何提高分类算法准确率上面,对于训练集本身缺乏关注。目前对训练集的选择主要使用权威数据集或者自身采集,然而无论哪种方法都需要耗费大量的人工去标记数据,降低了研究的效率。所以针对以上问题我们提出了将无监督方法和有监督方法相结合的基于聚类和有噪声数据的网络流量分类方法。针对聚类问题,为进一步研究降维给数据带来的影响,本文使用PCA线性变换和GainRatio特征变换算法对原数据集进行降维处理,并采用K-Means、Canopy、FarthestFirst三种硬聚类算法对降维的数据进行聚类,以研究数据降维对聚类算法产生的影响。针对自动标注问题,本文首先提出使用Resample抽样算法对聚类结果进行极小化抽样的方法给聚类各个簇进行有噪声标记,并实时将抽样准确率与纯人工标记的准确率进行比对。最后使用J48、RandomForest、Naive Bayes、BayesNet、SMO五种分类算法根据有噪声数据训练分类器来评价有噪声标记效果。为了使实验可信度更高,本文采用了两个公开数据集进行实验。结果表明以上方法适合于不同数据集,且采用经过降维处理的数据可以有效提高聚类准确率;同时自动标记任务达到了极小化人工标记要求,训练的分类器可以有效识别网络应用类别。
其他文献
随着视频监控系统的广泛应用,视觉信息成为现代安防领域安全技术的重点研究要素。计算机视觉相关技术可以被应用到智能监控领域,使得计算机可以对视频进行处理。人们可以通过
实际基础设施在运行过程中呈现出复杂、多变、非线性等特征,一般的数学方法无法对其进行精确建模。为了适应社会需求,本学位论文对实际基础设施系统进行了更加深入的理论研究
产品宣传册结合平面图片和文字描述介绍产品特征、属性及相关背景,是企业向消费者传递产品信息的重要手段,长期以来被视为产品展示的主流媒介之一。随着消费者对产品信息维度
网络表示方法一般分为两种,传统的基于拓扑的网络表示通常直接使用邻接矩阵,该矩阵可能包含噪声或冗余信息。基于嵌入的网络表示旨在学习低维空间中节点的密集和连续表示,从
我国是苹果产量大国,苹果产量占全球总产量的50%以上,苹果外观的好坏对苹果的售卖速度、价格与效益都有重要影响,因此,对苹果外观的快速、准确检测并分类是苹果售前处理的关
随着计算机技术的不断发展,药品安全管理一方面使药品生产销售的管理更为正规化,另一方面也为追溯药品来源及去向提供了可靠依据。由于药品安全管理系统信息录入过程中,包含
绩效考核作为提高企业和员工绩效的重要工具,在企业健康持续发展中的作用日趋重要,其重要性和必要性已被广泛接受,很多单位进行了积极探索,对于进一步增强企业的竞争力起到了
本文通过大量不同几何尺寸试样(不同面内/面外拘束)的J积分和裂尖张开位移(CTOD)的有限元数值计算,结合材料断裂韧性试验数据及理论分析的方法,主要研究基于CTOD的载荷无关的
模拟广播数字化是必然趋势。目前国内存在中国数字音频广播(Digital Audio Broadcast,DAB)和中国数字广播(China Digital Radio,CDR)两个行业标准,二者互有优劣,可能会长期共
Markov跳跃系统作为一类特殊的切换系统,由于能够很好地描述工业生产过程中各类复杂实际系统,受到了人们的越来越多的关注。此外,实际生活中的不确定性,外界干扰通常会对系统