基于流量的网络用户关联分析方法研究与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:yyyypolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大规模的网络流量中分析挖掘出用户特征、分析用户行为,现如今已经是互联网时代的一项关键技术,引起了业内广泛的重视与研究。如何通过用户在网络上的行为数据,发现用户之间潜在的关系,从而转化为辅助网络安全建设和互联网发展的有用知识,是现阶段亟需解决的问题。本文对网络协议的结构和通信方式以及数据挖掘算法进行了深入研究,分析了每种协议可以提取的用户特征,利用这些特征数据从繁杂的流量中找出用户账号,并提出了基于流量和属性相似度的用户关联性分析模型,最后设计并实现了网络用户关联分析系统。论文的主要的研究内容和相关成果包括以下几个方面:(1)针对多种网络主流协议的结构和用户关联性分析的需求,设计了解析模型实现了对网络流量的数据挖掘和特征提取,模型根据各种主流协议的结构,明确了相应的解析方法,并对关键字段进行了自动化的提取。(2)对流量中的用户账号进行了提取,并且为判断用户之间是否有关联提取出了相应的账号属性特征,并另外提出了四种会话属性特征以增强关联效果。并为不同用户间的特征相似度提出了 N-Gram、Jaro距离等不同的度量方式。(3)利用SVM机器学习理论和提取的用户数据特征,提出使用属性相似度特征判断用户关联性。本文通过计算不同用户属性相似度的方式得出特征,并采取了特征分段和独热编码等方法对特征进行了完善;在此模型基础上提出了 IP-SimRank算法分析用户之间的相似度,进而改善了关联模型的效果,并设计了剪枝策略优化了模型的计算性能。(4)设计并实现了基于网络流量的用户分析系统,并对系统的各个模块组成进行了详细的设计,并对整个系统完成了编码实现。系统模块包括以下几个部分:制定了流量解析和挖掘模块解析策略;实现了用户识别的具体流程;工程化了 SVM分类和关联分析的相关模型;设计了 Mysql数据库的表结构完成了对数据和结果的存储。(5)搭建系统的测试环境,对各个模型的性能及用户关联分析系统的功能完成了测试。实验结果表明,本系统较好地解决了以往用户关联准确率低,不同用户无法关联等问题。
其他文献
旅游解说标牌系统是景区信息传递的重要载体,不仅服务于游客,还起到管理景区的目的。目前我国大多数山地旅游解说标牌系统的建设问题突出,影响了景区的形象与持续发展。针对
一、石化园本课程的含义、特点(一)石化园本课程的含义。“园本”即是以幼儿园为基地进行课程开发的过程。园本课程实质上是一个以幼儿园为基地进行课程开发的开放民主的决策过
1918年,以杂志《赤鸟》的创刊为契机日本童谣诞生。此次童谣运动旨在创作出与此前的“(?)”以及“唱歌”相对立的、适合儿童的富有艺术性的童谣作品。金子美铃(1903-1930)乘
环境伦理学以自然价值理论作为学科构建的基础,为人类反思自然的价值及规范自身对待自然的行为提供了新的理论支持。本文结合环境伦理学关于自然价值概念的基本理解,系统分析
目的研究野花椒果皮的挥发性成分。方法采用水蒸气蒸馏法提取野花椒果皮的挥发油,运用GC-MS分析其化学成分。结果从野花椒果皮挥发油中分离出51个色谱峰,鉴定了48个化合物,占
该文以软质PP塑料客体为研究对象,结合当前现场勘查工作中遇到的一些疑难、不确定性问题,开展有针对性的实验。通过比较不同方法的显现效果,最终得到软质PP塑料客体上汗潜手
《旅游学概论》是旅游管理专业的专业必修课程和入门课程,属于职业基本能力课程,其教学效果直接影响本专业的教学质量。本文通过对课程分析、改革思路、课程内容、课程实施四
近年来,人们越来越重视有关硅的生物地球化学循环,植硅体重建古环境,硅肥的应用等方面研究。然而,植硅体的形成机理尚不清楚。本文在东北地区沿年均温4℃等温线附近自东南向
由水利部水利信息中心和江苏省水文水资源勘测局联合开发的"国家水文数据库应用系统WIS98",于1999年3月25日在京通过了部级技术鉴定。鉴定委员会由中国人民大学王珊教授、北京大家许卓群教
社会网络和信任在理论和实践上被认为对创新具有促进作用,然而鲜见实证验证。本文从企业的层面探讨社会网络、创新、信任三者之间的关系,并给予实证检验。论文首先回顾了社会网