论文部分内容阅读
随着4G业务的发展,移动端承接用户上网主流媒介,并推动互联网业务日新月异,成为社会生产效率提升的有力牵引。但随之而来的是用户对于4G网络体验的要求越来越高,影响用户4G网络体验的主要原因是网速慢以及流量异常,其中由于流量异常导致的资费问题最能直接影响用户4G网络体验满意度。如何在这种环境下有效解决网络质量和用户诉求之间的冲突,就变得尤为重要。本文克服针对流量是否异常无明确标识的困难,引入外部投诉信息,当用户质疑流量使用过快或与感知不符时标记为正样本,并选取用户投诉数据、每日流量使用数据、流量异常日内各时间点流量使用数据、流量异常日内各APP流量使用数据、终端数据等信息以及其拓展信息从各个维度对异常流量用户进行特征分析。本文主要分析了在投诉特征方面用户投诉时间相对于流量异常产生时间存在延迟性,在流量使用行为特征方面流量异常当日的流量使用较多并且流量使用波动较大,在上网时间特征方面一般用户流量异常为短时间爆发式,恶意APP在很短时间内消耗大量流量,在APP及终端系统特征方面反映出不同的终端系统其导致流量异常的前20个APP基本一致,并且导致流量异常的APP中占比最高的为不知名软件或程序。本文基于OSI七层模型中各层协议包含的数据信息构建了异常流量识别的指标体系,选取并衍生出体现整个网络行为过程的重要指标信息共7大类,包括数据包类、速度类、HTTP行为类、地址和端口类、TCP传输类、DNS请求类以及综合概述类。由于网络指标的高维性,本文在模型方面提出改进,采用稀疏自编码方法进行特征提取,通过对不同指标自动赋权,将异常流量识别指标体系中的41个指标压缩至15个,并将稀疏自编码提取的指标数据与41个指标数据在逻辑回归、K近邻算法、决策树三个分类器下的模型效果进行对比,得出在三个分类器下稀疏自编码提取的指标数据模型效果均优于基于41个指标数据构建的模型效果,因此稀疏自编码提取的指标数据不仅模型效果较好,而且在一定程度上减少了机器学习算法的空间复杂度以及计算复杂度。为了进一步提升模型效果,本文采用Stacking集成学习算法实现组合分类器。首先通过逻辑回归、K近邻算法、决策树三个基分类器构建模型,再组合三个基分类器的输出结果作为二层分类器的输入,二层分类器采用逻辑回归算法,通过学习获得最终的组合分类器。组合分类器的准确率与AUC值均高于各个基分类器,准确率达到95.14%,AUC值达到93.12%。最后,本文对主要的工作内容进行了总结,并针对不足之处,提出对后续研究的展望。