论文部分内容阅读
为防止用户的个人信息以及访问互联网的具体行为被第三方截获,以保护用户的个人信息安全为目标的匿名通信系统应运而生。匿名通信系统的出现在保护网民隐私的同时,也造成了许多新的网络安全问题:许多网络用户使用匿名网络进行买凶杀人,敲诈勒索,散布谣言等非法行为。因此有必要对匿名流量进行行为检测及分析,通过匿名流量检测,可以锁定匿名网络的使用者,而对匿名流量进行分析可以进一步推测可能的访问内容。从而实现对匿名流量的监管,控制匿名网络犯罪。Tor(The Onion Router)是目前规模最大的匿名通信系统,本文主要针对Tor匿名网络进行流量分析,从Tor流量行为检测和Tor流量应用分类两部分对Tor网络的匿名流量进行深入分析,具体工作如下:首先,针对已有的Tor流量检测准确率低的问题,分析了Tor匿名流量的特点,提取了四个检测效率较强的统计特征,并基于决策树算法提出了一种Tor流量行为检测方法,旨在对匿名流量进行控制。通过对5万条样本进行算法实验,得出该方法在进行Tor流量检测时,计算量小,检测效率高,Tor流量的召回率在97%以上。然后,针对Tor流量标记样本集较少,人工标记成本偏高的问题,采用了Tri-Training半监督机器学习方法。提高了样本的利用效率,将上一步中检测出的Tor流量按照应用类型进行细粒度的划分,分成网页、收邮件、发邮件、音视频四个应用类别。实验证明,该算法可以充分利用获得的样本集对Tor流量进行训练和分类。其分类准确率可以达到94%,较传统的有监督学习方法平均提高10%。最后,根据上述Tor流量行为检测以及Tor流量应用分类两部分,设计并实现了一个Tor流量分析原型系统。在真实网络环境中部署该原型系统,从功能和性能两方面进行了系统测试和结果分析。系统测试结果表明,该系统性能良好,可以满足Tor流量分析的需求,在分类时间上还需要进一步提高。