论文部分内容阅读
从大规模的网络流量中分析挖掘出用户特征、分析用户行为,现如今已经是互联网时代的一项关键技术,引起了业内广泛的重视与研究。如何通过用户在网络上的行为数据,发现用户之间潜在的关系,从而转化为辅助网络安全建设和互联网发展的有用知识,是现阶段亟需解决的问题。本文对网络协议的结构和通信方式以及数据挖掘算法进行了深入研究,分析了每种协议可以提取的用户特征,利用这些特征数据从繁杂的流量中找出用户账号,并提出了基于流量和属性相似度的用户关联性分析模型,最后设计并实现了网络用户关联分析系统。论文的主要的研究内容和相关成果包括以下几个方面:(1)针对多种网络主流协议的结构和用户关联性分析的需求,设计了解析模型实现了对网络流量的数据挖掘和特征提取,模型根据各种主流协议的结构,明确了相应的解析方法,并对关键字段进行了自动化的提取。(2)对流量中的用户账号进行了提取,并且为判断用户之间是否有关联提取出了相应的账号属性特征,并另外提出了四种会话属性特征以增强关联效果。并为不同用户间的特征相似度提出了 N-Gram、Jaro距离等不同的度量方式。(3)利用SVM机器学习理论和提取的用户数据特征,提出使用属性相似度特征判断用户关联性。本文通过计算不同用户属性相似度的方式得出特征,并采取了特征分段和独热编码等方法对特征进行了完善;在此模型基础上提出了 IP-SimRank算法分析用户之间的相似度,进而改善了关联模型的效果,并设计了剪枝策略优化了模型的计算性能。(4)设计并实现了基于网络流量的用户分析系统,并对系统的各个模块组成进行了详细的设计,并对整个系统完成了编码实现。系统模块包括以下几个部分:制定了流量解析和挖掘模块解析策略;实现了用户识别的具体流程;工程化了 SVM分类和关联分析的相关模型;设计了 Mysql数据库的表结构完成了对数据和结果的存储。(5)搭建系统的测试环境,对各个模型的性能及用户关联分析系统的功能完成了测试。实验结果表明,本系统较好地解决了以往用户关联准确率低,不同用户无法关联等问题。