论文部分内容阅读
对等网络应用在互联网上的日益流行,为人类社会带来了信息共享的革命。然而,基于Kademlia协议的对等网络(简称:K网络)仍存在许多服务质量相关的问题亟需解决。例如,(1)节点与节点标识的非一一对应问题,该问题使K网络中的节点精确定位和资源查询性能下降,同时使K网络易遭受恶意用户的网络攻击。(2)K网络在构建覆盖网络时,没有考虑到位置信息或用户兴趣,即没有将物理位置上较近或兴趣相似的节点优先选择为邻居,其路由性能仍存在较大的提升空间。(3)K网络在为内容分发提供便利的同时,也方便了色情与暴力等低俗内容的分发。故对K网络中的内容质量进行提升是相当必要的,这样不仅可以了解低俗内容的扩散程度,也可以对低俗内容进行过滤。由于K网络大规模、完全分布式和强烈的动态特性,给K网络的服务质量研究带来巨大的挑战和更多的未知,也因此越来越受到业界和学术界的广泛关注,使得K网络的服务质量研究成为一个非常有价值的研究课题。
本文关注K网络的服务质量,所研究的关键科学问题包括最佳节点标识研究、路由性能优化、内容质量提升。本文针对这些关键科学问题展开研究,通过提出标识稳定性的测度和最佳节点标识的形式化定义来确定K网络中的最佳节点标识;提出新颖的基于位置邻近和基于用户兴趣的邻居选择策略,继而提出嵌入邻居选择策略的路由表维护算法以进行路由性能优化;通过提出基于文本分类的低俗文件鉴别框架来提升K网络中的内容质量。主要研究成果和创新之处包括:
本文首先对K网络中的最佳节点标识问题进行研究。一方面,本文对K网络中的标识符重复与别名现象进行定量测量研究。提出可用于P2P网络中定量测量IP重复与ID别名的测度。设计实现一个时空复杂度低,收敛性好的K网络节点信息采集器:Rainbow。基于这些测度和Rainbow采集器,对K网络的IP重复与ID别名进行深入的测量分析,发现K网络中存在较为严重的IP重复和ID别名。另一方面,本文对K网络中的最佳节点标识进行研究。提出节点标识稳定性测度一稳定因子,给出节点标识集合中最佳节点标识的形式化定义,以KAD网络(一种K网络)为例,通过稳定因子计算得出{userID}是KAD网络中的最佳节点标识。
本文随后关注K网络的路由性能优化。提出两种邻居选择策略:(1)基于位置邻近的邻居选择策略和(2)基于用户兴趣的邻居选择策略。就第一种策略,以KAD网络为例,由其文件共享关系建立功能拓扑,并应用社区网络分析方法对其功能拓扑进行深入分析,发现KAD网络中的节点倾向于与IP地址邻近的节点共享文件。基于此,提出基于位置邻近的邻居选择策略:尽量使IP地址邻近的节点成为邻居。就第二种策略,考虑到用户所拥有的文件能从一个视角反映出用户的兴趣,基于节点拥有的文件的元信息(文件名、文件长度、文件类型)提出节点间相似度计算模型,进而基于相似度计算模型提出基于用户兴趣的邻居选择策略:尽量在相似度高的节点间建立邻居关系。然后,在分析原有的路由表维护算法RTMA-1的基础上,将两种邻居选择策略嵌入算法中,提出新的路由表维护算法:RTMA-2。最后,对RTMA-2算法的有效性进行理论分析和实验验证,结果表明嵌入邻居选择策略的RTMA-2算法的路由与查询性能都有较大提升。
最后,本文关注K网络的内容质量提升,以典型的eMule文件共享应用为例,对其分发内容的特性尤其是其低俗程度进行深入分析,分析发现K网络中存在数百万低俗文件。进一步,基于文本分类,提出一个低俗文件鉴别框架。就框架中利用的特征:文件名所面临的“特征稀疏问题”,分别基于文件名特征和搜索引擎提出相应的特征扩展方法。实验结果表明,特征扩展方法是有效的,而且,当使用“支持向量机”时鉴别框架具有优异的性能。