论文部分内容阅读
随着移动互联网高速发展,传统的网络管理技术在性能管理以及安全管理领域的发展相对滞后,成为了移动互联网发展的瓶颈。因此,针对移动互联网的网络管理技术的研究具有十分重要的理论意义和应用价值。本文针对性能管理中的用户感知质量(Quality of Experience,QoE)评价准确性的问题、安全管理中的有效构建病毒检测模型问题以及性能管理中的有效分析LOG日志问题等三个大方面展开了深入的研究。首先,针对QoE评价准确性较低的问题,本文设计了一种基于随机森林的QoE评价模型。该算法是以随机森林为基础,同时引入集成算法的思想,从而达到了提高评估准确性的目的。同时,针对QoE具有主观性的特点,利用模糊层次分析法(Fuzzy Analytic Hierarchy Process,FAHP),将用户的主观性融入到QoE的评价模型中,使其能够更加准确的评估QoE。其次,针对有效构建手机病毒检测模型的问题,本文设计了一种新的闭合序列模式算法,可以有效的构建手机病毒检测模型。该方法以闭合序列模式为基础,设计了一种基于时序关系的闭合序列模式判断方法,解决了在构建模型过程中产生大量冗余序列的问题,从而有效的降低了模型的构建时间。最后,针对有效分析LOG日志的问题,本文分别从LOG日志内容的权重性以及有用性等两个方面出发,设计了两个基于LOG日志的挖掘算法,以达到从LOG日志分析中获取更多有用信息的目的。具体来看,本文主要的研究成果包括以下4个方面:(1)针对QoE评价准确性较低的问题,本文提出了一种新的QoE评价算法(Random Forest Quality of Experience,RForestQoE)。该算法以随机森林和集成算法(AdaBoost,Adaptive Boosting)为基础对QoE进行评估。为了拟合QoE主观性的特点,RForestQoE使用模糊层次分析法FAHP将用户的主观偏好融入到评价模型里。在实验仿真中,以基于决策树(Decision Tree,DT)的QoE评价算法作为对比算法,实验结果显示RForestQoE算法提高了 20%左右的准确性。(2)针对有效构建手机病毒检测模型的问题,本文设计了一种基于时序关系的闭合序列模式挖掘算法CloTSP(Closed Sequential pattern mining in time order,CloTSP)。依据闭合序列模式的性质,CloTSP提出了一种基于时序关系的闭合序列模式判断方法,避免了在构建模型的过程中产生大量冗余序列的问题,从而达到降低模型构建时间的目的。在实验仿真中,以CloSpan(Closed Sequential pattern Mining,CloSpan)算法作为对比算法,实验结果显示使用CloTSP算法构建模型的运行时间缩短了50%。随着模型中所包含的项的个数的不断增长,CloTSP算法运行时间的波动幅度较小,因此具有良好的可扩展性。(3)针对LOG日志中内容权重不同的问题,本文设计了一种基于权重的序列模式挖掘算法ISiWS(ItemSet-interval Weighted Sequences mining,ISiWS)。ISiWS算法设计了一种事务比特矩阵TBM(Transaction Bit Matrix,TBM)的结构体,使用它来存储原始序列,同时设计了相关的查找(Search)和定位(Location)操作。ISiWS算法使用投影技术产生新序列,并且利用一种近似方法计算序列的支持度,从而达到获取更多有用信息的目的,同时ISiWS算法设计了一种新的裁剪机制,以达到提高算法挖掘效率的目的。在实验仿真中,以WSpan(Weighted Sequential pattern mining,WSpan)算法作为比较算法,从运行效时间、序列个数、序列长度分布以及最大差异值影响等方面进行了详细的分析。实验结果表明,相比于WSpan算法,ISiWS算法运行的时间更短。同时,实验结果还表明了ISiWS算法可以减少含有低信息量的长序列的个数,从而说明了 ISiWS算法可以有效的挖掘LOG日志中隐藏的有用信息。(4)针对LOG日志分析结果过多,无法有效获取有用信息的问题,本文设计了 一种有用序列模式挖掘算法UspHmm(Useful sequential pattern mining using Hidden markov model,UspHmm)。UspHmm算法首先基于位置信息,利用KMeans算法(K-Means cluster)对挖掘结果进行初始划分。同时,它设计了一种衡量序列之间有用性差异的指标DUM(Difference Usefulness Measurement,DUM),并且使用隐马尔可夫模型计算每个序列对应的DUM值。根据序列的DUM值,UspHmm可以从海量的分析结果中挑选符合约束条件的序列模式集,从而解决由于分析结果过多,而造成无法有效获取有用信息的问题。在实验仿真中,以BIDE(BI-Directional Extension based frequent closed sequence mining)和SPAM(Sequential PAttern Mining)算法作为比较算法,从结果序列个数、序列有用性以及对聚类个数敏感度等三个方面进行了详细的分析,实验结果证明UspHmm算法可以获取数量更少并且最有价值的序列模式集。本论文的研究内容是将序列模式挖掘算法与机器学习算法融入到移动互联网网络管理技术中。CloSpan算法与RForestQoE算法应经被应用到实际生产环境中,为机器学习以及序列模式挖掘算法在解决网络管理方面的问题提供了有效的解决方案和工程实践指导。