论文部分内容阅读
在网络使用过程中,由于用户具有各自的兴趣爱好和访问习惯,因此其关注的内容不完全相同,使用网络的时间和服务也各不相同,并且不同的用户群体不可避免地带有各自的群体行为特征。了解网络用户的群体行为,能从更宏观的角度得到网络使用轮廓,一方面为用户使用网络提供一定的指导意义,帮助其更加充分合理的利用网络资源;另一方面也为网络管理者进行异常检测等网络管理工作提供理论依据。校园网作为互联网的一个组成部分,其用户的专业性和使用网络的目的性较强,决定了它可能比校外普通互联网用户具有更明显的特征。探究和了解校园网用户群体行为特征,可以为校园网的网络规划与建设等工作提供重要的理论基础,因此对校园网用户群体行为的研究显得日渐重要。本文提出一种从校园网用户群体角度出发,研究用户群体行为特征的分析方法。由于网络使用受到诸多因素的影响,变化多而快,很难用一套有效的机制对其进行概述,因此本文着重研究了用户群体行为分析的方法。首先采集校园网主干数据流,通过流聚合等手段获得分析的数据源;再经过数据预处理和数据选取从中得到能描述用户群体行为且相关性最大的属性集合;然后对群体进行分类和标识,分别以纵向和横向的角度从使用时间、使用服务、访问流量等方面提取出用户群体行为特征;最后采用数据挖掘中的聚类分析从群体访问地址倾向这一角度对地址属性进行分析,得出较为全面的用户群体行为特征。本文还对数据挖掘的聚类分析在地址属性上的应用进行了深入研究和讨论,针对以往聚类算法中没有考虑IP地址的特征属性,聚类结果分散不完整,且没有实现不同类间的最大相异度这几个问题,提出一种新的聚类算法。算法结合最长前缀匹配和最近邻规则聚类算法的概念,运用逐步优化的层次聚类的思想,自动并有意义地进行基于数据集中地址属性的无监督聚类,得到用户群体对网站的使用偏好。本文对用户群体行为特征的研究与分析为下一步识别异常行为、网络异常监测以及更好的进行校园网规划设计等做出了充分的理论准备。