论文部分内容阅读
随着网络用户对隐私保护要求的不断提高,匿名通信技术与隐藏服务机制(又名暗网)得到快速发展。然而隐藏服务强匿名性和难以追踪的特点为非法活动提供了庇护场所,非法服务层出不穷,给网络空间安全带来了严重威胁。因此,研究隐藏服务非法活动的分类,对防止和打击违法犯罪行为,具有重要意义。由于隐藏服务域名发布方式隐蔽,非法网站数量分布不均衡,且内容迁移更新频繁,大规模数据采集与标记具有一定难度,因此当前隐藏服务非法内容分类研究中存在数据集规模小、目标类别少、难以分类新型非法活动等难点。针对这些问题,本文以Tor隐藏服务为研究对象,提出了基于法律规制的隐藏服务非法活动分类方法,利用相关法律法规判定非法隐藏服务,结合TF-IDF特征权重计算和机器学习分类算法,实现了对隐藏服务非法网页的有效分类。本文主要工作与贡献如下:(1)在数据采集阶段,通过研究Tor隐藏服务发布与访问机制,设计了 Tor隐藏服务发现与收集系统,使用爬虫框架实现了从Tor隐藏服务目录类网站和明网搜索引擎关键字检索两种渠道发现和收集Tor隐藏服务域名的功能,构造了基于Tor隐藏服务的非法活动网页数据集,为后续分类研究提供测试数据。(2)提出基于法律规制的隐藏服务非法活动分类方法,使用法律文本作为隐藏服务非法活动的分类判定依据。该方法的研究重点是法律训练样本的提取与构造,针对从HeinOnline法学数据库中检索的目标类别适用法律,通过分析美国制定法和判例法的结构特征与行文规范,结合FindLaw术语库生成法律专用停用词表,过滤干扰信息。采用TF-IDF算法提取类别关键词,通过在本文采集的数据集上进行了小规模分类测试,初步证明该方法的可行性。(3)在方法实现阶段,提出了基于TF-IDF改进的特征权重算法。针对TF-IDF在网页文本分类中的局限,结合隐藏服务非法网页结构特点引入基于HTML标签的特征权重系数,提升筛选出特征词的类别区分度。将法律训练样本和非法隐藏服务测试样本分别构造为空间向量模型,使用8种机器学习分类算法进行训练与分类实验,其中贝叶斯分类器表现最好。实验结果表明,基于法律规制的分类方法使用TF-IDF特征权重计算和贝叶斯分类器达到了 93.5%的分类准确率,改进的ωTF-IDF算法比之提高了 2.6%的准确率,通过在DUTA数据集上与传统方法进行对比实验,本文方法使用小规模且易获取的法律训练集实现了与传统方法相当的分类精度。该方法不依赖于大规模隐藏服务训练模型,且对于还未泛滥的新型非法活动,该方法在掌握法律支撑材料的情况下,同样能够实现有效分类。