基于机器学习的即时通信流量分类技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangleiyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文对主要的网络流量分类技术进行了阐述,并提出了目前网络流量分类技术所面临的问题。然后论文主要研究了以下内容:准确的即时通信(IM)流量分类方法,有效的特征选择方法和用于IM流量分类的有效特征包数的界定方法。为了提高IM流量分类精度,稳定性和分类性能,论文提出了一些算法模型,具体贡献如下:1、论文在研究和分析即时通信流量的特点和相关机器学习的理论和方法的基础上,首先选择支持向量机(SVM)、C4.5决策树、贝叶斯网络和朴素贝叶斯这4种经典机器学习分类器进行即时通信文本流量分类的研究,并在两种不同网络环境下采集即时通信流量数据做为数据集。然后,提取了50个流量特征用于训练和测试。实验结果表明,所有分类器在准确率、召回率和精度指标方面都非常有效,但其中C4.5机器学习分类器的性能最佳。2、基于机器学习的流量分类中,不恰当的特征选取容易产生错误的流量分类结果,因此即时通信流量分类特征的选取也是即时通信流量分类中的一个挑战性问题。为了解决这个问题,论文提出了一种特征选择度量标准Weighted Mutual Information(WMI),在此基础上提出了一个WMI_ACC的混合特征选择算法,它利用WMI度量标准筛选掉大部分流量特征,再使用ACC度量在剩余的特征中选择合适的流量分类特征。论文构建了两个不同网络环境下获取的即时通信数据集,采用5个经典机器学习分类器来评估论文所提出的方法。为了更好地分析结果,统计检验方法Wilcoxon被应用于结果数据的分析。实验结果表明,论文提出的算法在分类准确率、召回率和精度方面得到了良好的结果。3、在协议分布不平衡时,机器学习分类器容易将待分类流量分类于占主导地位的协议流量类别中,从而导致分类错误。针对这个问题,在即时通信流量分类中论文利用特征选择度量标准Weighted Mutual Information(WMI),设计了WMI_AUC的特征选择算法,该算法用WMI度量过滤大多数特征,并进一步使用Area Under roc Curve(AUC)度量选择有效分类特征。另外,为了克服流量动态性问题引发的特征选择不稳定的问题,论文又提出了一种RFS鲁棒特征选择算法,该算法能够从WMI_AUC算法获得的结果中选择鲁棒性更好的特征。论文使用11个典型的流量分类器对不同的网络环境下获取的数据集进行测试评估,实验结果表明利用该算法获得的流量分类特征进行流量分类时准确率效果更好。4、在流量分类中如何评估两种特征选择间是否存在差异也是一个重要问题。论文研究了如何评估特征选择的有效性,并为流量分类选择最佳特征的方法。论文首先提出了一种特征选择算法(FSA),同时为了评估特征选择技术的有效性,论文提出了一种基于互信息分析的特征评估算法(FEA),用于评估FSA算法得到的特征的有效性,并从中选出最佳的特征。论文采用9个经典的机器学习分类器在两个不同的网络环境数据集中评估论文提出的方法。实验结果表明,论文提出的方法平均可以达到98%的准确率。此外,所有用来测试的机器学习分类器都获得了非常好的结果,但与其他机器学习分类器相比,采用FSA和FEA方法选择特征的随机森林分类器和C4.5分类器具有更好的性能。5、在互联网即时通信流量早期分类的研究中,如何界定有效分组的数量是关键问题。为了解决这个问题,论文构建了5个即时通信微信流量数据集。提取数据集中每个流的前20个分组的分组大小作为特征,选择10个经典流量分类器进行流量分类,从2个分组开始每次测试逐步增加分组的个数,计算不同分组数目与分类结果的互信息,之后利用两次统计检验Friedman和Wilcoxon,以确认早期即时通信流量分类的有效分组的数目。实验结果表明,13-19个分组和随机森林分类器在即时通信微信流量的早期分类中非常有效。论文提出的方法能够有效地提高IM流量分类的准确性,而这些方法应用于不平衡数据集并且应用于更多的分类器是我们未来的工作。
其他文献
针对土库曼斯坦气田集输用管道对输送高压及耐S、H2S腐蚀的要求,为满足环境、工艺及安全的规定,采用钨极氩弧焊(GTAW)和埋弧自动焊(SAW)对大口径厚壁(22+3mm)INCOLOY825/L415
本论文主要讨论了年轻中子星自旋演化的相关问题。吸积过程和磁场演化对于中子星的自旋演化有着决定性的影响,因此我们研究的重点也集中在这两者对中子星自旋演化的影响上。
为解决茶多酚(tea polyphenols,TP)不稳定、易被氧化的难题,采用直流电的方法制备了魔芋葡甘聚糖(konjac glucomannan,KGM)复合凝胶,在电场力的作用下实现了KGM拓扑链对TP活性的
在对电子类产品常用的可靠性参数进行探讨的基础上,针对雷达工程的实际阐述了雷达系统参数选择和指标确定的基本方法和程序,并对合同中可靠性指标的完整性等相关问题进行了论述
作为一个进入中国内地20多年的品牌,真维斯率先把休闲服概念普及到内地市场。真维斯一直在寻求主动,随着市场做出调整,每一次转折都率先而为,每一次都精准踩在点上,或许这就
<正> 我国现行固定资产核算模式,对于加强统一核算,保证国家对经济的宏观管理,提供国民经济有计划按比例地协调发展,曾起过重大作用。但随着我国经济体制改革的进一步深化,企
在这场休闲服饰的转型大潮中,当其他品牌纷纷走上潮流时尚、多品牌发展的道路时,真维斯坚持以“民牌”的理念将青春进行到底。11月20日,由真维斯冠名的“青春的选择2013年度
将实体经济高质量发展分解为发展的基本面和发展的社会生态成果,测算2004-2017年实体经济的高质量发展水平及趋势。测算结果显示,实体经济高质量发展呈现出W型变动特征,发展
本文从汉字教学的定义与分类切入,重点从字量确定、字种选择、字序编排和字的讲解等方面阐述汉字教学的科学化问题。
随着制造业改革的进程,越来越多的传统生产线开始向自动化生产线转型。从传统的皮带式人工作业流水线发展到各生产设备实现单机自动化,如今,现代化的生产线正与工业机器人以