论文部分内容阅读
BitTorrent是一种非常流行又高效的文件共享协议,由于其独特的下载原理,拥有了大量的用户。Mainline DHT是在BitTorrent发展过程中,用于替代传统Tracker服务器的协议,它的出现让BitTorrent成为了真正的去中心化协议。每个客户端都是一个小型的Tracker,一个节点的离开不影响整个网络。Mainline DHT协议已经广泛地被许多流行的BitTorrent客户端所采用,对其进行采集,可迅速构建一个百万级的种子库,并获得千万级的节点信息;对其进行测量与分析,可以帮助提高客户端的性能。 本文首先利用Mainline DHT协议设计了一个爬虫系统,采用主动扩散与被动监听的策略,对节点和磁力链接进行了采集,从本文的结果看,这个系统的确可以迅速获得千万级的数据量。在这个数据集上,对节点的地理分布情况,端口与客户端的使用情况及磁力链接的分布情况进行了分析,发现中国和俄罗斯拥有大量的DHT用户,而且Utorrent仍然是最热门的BT客户端软件;从磁力链接的分析看,磁力链接新鲜时间越长,其收到的请求数可能越多,并且各个磁链的节点数大致符合Zipf分布,也就是少量的磁力链接占据了大量的DHT节点。 为了提高磁力链接转换为种子文件的转换率,本文研究了将磁力链接转换为种子文件的方法,即 HTTP请求和Extension协议解析两种方式。文中从解析率,解析时间等方面对其进行了测量和比较,发现迅雷和vuze的种子缓存网站解析率非常高,但Extension协议的解析率较低。进而,研究了导致Extension协议解析率低的原因,并发现通过使用IPv6隧道或IPv6可以提高解析率和下载速度。