基于稀疏自编码与组合分类器的异常流量识别研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:ywbll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着4G业务的发展,移动端承接用户上网主流媒介,并推动互联网业务日新月异,成为社会生产效率提升的有力牵引。但随之而来的是用户对于4G网络体验的要求越来越高,影响用户4G网络体验的主要原因是网速慢以及流量异常,其中由于流量异常导致的资费问题最能直接影响用户4G网络体验满意度。如何在这种环境下有效解决网络质量和用户诉求之间的冲突,就变得尤为重要。本文克服针对流量是否异常无明确标识的困难,引入外部投诉信息,当用户质疑流量使用过快或与感知不符时标记为正样本,并选取用户投诉数据、每日流量使用数据、流量异常日内各时间点流量使用数据、流量异常日内各APP流量使用数据、终端数据等信息以及其拓展信息从各个维度对异常流量用户进行特征分析。本文主要分析了在投诉特征方面用户投诉时间相对于流量异常产生时间存在延迟性,在流量使用行为特征方面流量异常当日的流量使用较多并且流量使用波动较大,在上网时间特征方面一般用户流量异常为短时间爆发式,恶意APP在很短时间内消耗大量流量,在APP及终端系统特征方面反映出不同的终端系统其导致流量异常的前20个APP基本一致,并且导致流量异常的APP中占比最高的为不知名软件或程序。本文基于OSI七层模型中各层协议包含的数据信息构建了异常流量识别的指标体系,选取并衍生出体现整个网络行为过程的重要指标信息共7大类,包括数据包类、速度类、HTTP行为类、地址和端口类、TCP传输类、DNS请求类以及综合概述类。由于网络指标的高维性,本文在模型方面提出改进,采用稀疏自编码方法进行特征提取,通过对不同指标自动赋权,将异常流量识别指标体系中的41个指标压缩至15个,并将稀疏自编码提取的指标数据与41个指标数据在逻辑回归、K近邻算法、决策树三个分类器下的模型效果进行对比,得出在三个分类器下稀疏自编码提取的指标数据模型效果均优于基于41个指标数据构建的模型效果,因此稀疏自编码提取的指标数据不仅模型效果较好,而且在一定程度上减少了机器学习算法的空间复杂度以及计算复杂度。为了进一步提升模型效果,本文采用Stacking集成学习算法实现组合分类器。首先通过逻辑回归、K近邻算法、决策树三个基分类器构建模型,再组合三个基分类器的输出结果作为二层分类器的输入,二层分类器采用逻辑回归算法,通过学习获得最终的组合分类器。组合分类器的准确率与AUC值均高于各个基分类器,准确率达到95.14%,AUC值达到93.12%。最后,本文对主要的工作内容进行了总结,并针对不足之处,提出对后续研究的展望。
其他文献
<正>医院实施紧急代签的行为,应以患者处于无法表达意愿及其近亲属亦不在场的状态为前提。
期刊
面对金融危机、欧债危机引发的全球性金融资本的衰退,发达国家除再次实施传统的贸易保护措施外,又新增了实体经济回归计划,试图挽救本国经济。但实体经济回归计划遭到了产业
在转型经济和后金融危机时期,公司治理和战略不匹配引发的问题日益突出,公司治理的核心是董事会治理,董事会担任着制订和监督实施企业战略的使命。多样性的董事会已经成为了
一、自尊教育问题的提出自尊教育即自我尊重的教育,是对人的自我认知、自我价值和自我行为的一种教育活动。自尊价值体系的形成对自我发展具有很大的积极作用。人的自尊要求
<正>2017年全国"两会"上,"粤港澳大湾区"首次写入政府工作报告,意味着"大湾区"概念成为国家战略,接力"珠三角"地方规划。粤港澳大湾区包括广东省9个城市,以及香港、澳门两个
光动力疗法是一种十分有前景的无创的光化学疗法。主要适应症为实体肿瘤和血管性疾病,还具有一定的抗微生物学效应,除了用于皮肤肿瘤外,还用于痤疮、光老化、银屑病等疾病的
随着现代社会和经济的发展,对能源的巨大需求促进了电力工业的飞速发展,使得电力系统向大容量、超高压和跨区域方向发展。电网建设的步伐加快,电网科技含量的提升,新技术、新
放眼国内外的司法实践,引诱、欺骗讯问方法的使用都有一定的容许性。但是,近年来曝光的冤假错案中,虚假供述的生长态势仿佛韭菜一样,割了一茬又长出一茬,不断挑动着公众敏感
<正> 作为湖南省广播电视厅“改革试验田”的湖南经济电视台,开播三年多来坚持大胆改革创新,实行高起点新思路办台,事业发展非常迅速,两大效益十分突出:宣传上导向正确,定位
本文主要从水土流失防治、农药化肥污染防治、畜牧养殖污染防治以及村镇生活垃圾污染防治4个方面,系统总结我国村镇饮用水源保护和污染防控技术研究进展并分析存在的不足,为今