论文部分内容阅读
Tor匿名通信在为用户提供隐私保护的同时,也被大量恶意用户用于掩盖自身的非法网络行为。特别是Hidden Service协议能够隐藏服务提供者的身份信息,导致隐藏服务(基于该协议的Web服务,又称为暗网)中的违法内容不断泛滥,而Tor利用Meek网桥将流量伪装成访问云服务的正常TLS流以防止被封堵。因此在Tor-Meek机制下的隐藏服务溯源研究具有重要的理论价值和实际意义。实现对Tor-Meek用户访问的隐藏服务的追溯面临以下挑战:1)由于隐藏服务寄生于Tor网络,导致现有研究中隐藏服务数据集有限且缺乏代表性;2)Hidden Service协议中用户与隐藏服务利用协商的六跳会合电路进行加密间接通信,可抵抗传统追踪方法;3)Meek的轮询请求机制产生的大量干扰包会混淆流量的原始特征。针对以上问题,本文提出一种基于指纹识别的隐藏服务溯源方法,以含有违法内容的隐藏服务为追踪目标,利用不同目标服务呈现在通信流量上的指纹来追踪隐藏在Tor-Meek机制下的用户正在访问的隐藏服务。本文的主要贡献如下:(1)针对隐藏服务数据集有限的问题,根据社交论坛上隐藏服务的发布方式以及Tor2web对隐藏服务的代理机制,提出一种基于多平台的隐藏服务发现方法。根据隐藏服务生存周期短、更新周期长、多域名等特性,提出一种基于PageRank的隐藏服务排名算法,并利用该算法选取更具代表性的追踪目标。(2)针对Hidden Service协议中用户与隐藏服务通信时需根据Rendezvous规范协商会合电路的特性,本文提出一种新的基于指纹识别的隐藏服务溯源模型。该模型主要包括两个阶段:1)检测Tor-Meek用户是在与隐藏服务通信,还是与普通Web服务通信;2)根据目标隐藏服务的指纹追踪用户正在与哪个目标服务通信。(3)在溯源模型实现阶段,通过分析Meek用于轮询机制的数据包的长度分布,结合其时间间隔分布,去除Meek对流量的干扰。针对隐藏服务和普通服务的流量区分问题,结合Rendezvous规范的特性,分析隐藏服务与普通服务在通信流量上的差异来提取特征,并使用SVM算法来进行检测分类。针对目标服务的追踪问题,根据不同隐藏服务在页面元素及其加载顺序上的差异来提取其映射在通信流量上的特征,结合Random Forest算法对特征重要性的评估来选择构建目标服务指纹库的特征,并利用多种分类算法来追踪识别用户访问的目标服务,验证方法的可行性。实验表明,本文方法可有效识别追踪用户正在与哪个目标服务通信,在Closed World场景下,对于10个追踪目标,识别的精确率和召回率达到95%以上,在Open World场景下,当背景集大小为1000时,对于50个追踪目标,识别的精确率和召回率都能达到87%左右,与现有方法相比有明显提高。