隐藏服务内容分类研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户：xulingxuan

【摘要】

：

【作者】

：

何思雨

【出处】

：

北京交通大学

【发表日期】

：

2019年01期

【关键词】

：

隐藏服务 Tor 文本分类法律特征权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络用户对隐私保护要求的不断提高,匿名通信技术与隐藏服务机制(又名暗网)得到快速发展。然而隐藏服务强匿名性和难以追踪的特点为非法活动提供了庇护场所,非法服务层出不穷,给网络空间安全带来了严重威胁。因此,研究隐藏服务非法活动的分类,对防止和打击违法犯罪行为,具有重要意义。由于隐藏服务域名发布方式隐蔽,非法网站数量分布不均衡,且内容迁移更新频繁,大规模数据采集与标记具有一定难度,因此当前隐藏服务非法内容分类研究中存在数据集规模小、目标类别少、难以分类新型非法活动等难点。针对这些问题,本文以Tor隐藏服务为研究对象,提出了基于法律规制的隐藏服务非法活动分类方法,利用相关法律法规判定非法隐藏服务,结合TF-IDF特征权重计算和机器学习分类算法,实现了对隐藏服务非法网页的有效分类。本文主要工作与贡献如下:(1)在数据采集阶段,通过研究Tor隐藏服务发布与访问机制,设计了 Tor隐藏服务发现与收集系统,使用爬虫框架实现了从Tor隐藏服务目录类网站和明网搜索引擎关键字检索两种渠道发现和收集Tor隐藏服务域名的功能,构造了基于Tor隐藏服务的非法活动网页数据集,为后续分类研究提供测试数据。(2)提出基于法律规制的隐藏服务非法活动分类方法,使用法律文本作为隐藏服务非法活动的分类判定依据。该方法的研究重点是法律训练样本的提取与构造,针对从HeinOnline法学数据库中检索的目标类别适用法律,通过分析美国制定法和判例法的结构特征与行文规范,结合FindLaw术语库生成法律专用停用词表,过滤干扰信息。采用TF-IDF算法提取类别关键词,通过在本文采集的数据集上进行了小规模分类测试,初步证明该方法的可行性。(3)在方法实现阶段,提出了基于TF-IDF改进的特征权重算法。针对TF-IDF在网页文本分类中的局限,结合隐藏服务非法网页结构特点引入基于HTML标签的特征权重系数,提升筛选出特征词的类别区分度。将法律训练样本和非法隐藏服务测试样本分别构造为空间向量模型,使用8种机器学习分类算法进行训练与分类实验,其中贝叶斯分类器表现最好。实验结果表明,基于法律规制的分类方法使用TF-IDF特征权重计算和贝叶斯分类器达到了 93.5%的分类准确率,改进的ωTF-IDF算法比之提高了 2.6%的准确率,通过在DUTA数据集上与传统方法进行对比实验,本文方法使用小规模且易获取的法律训练集实现了与传统方法相当的分类精度。该方法不依赖于大规模隐藏服务训练模型,且对于还未泛滥的新型非法活动,该方法在掌握法律支撑材料的情况下,同样能够实现有效分类。

其他文献

黑龙江省农业供应链金融模式研究

习总书记在十九大报告中指出,要实施乡村振兴战略,三农问题关系着国计民生。近年来,黑龙江省深入推进农业供给侧结构改革,积极将农业与供应链金融相结合,供应链金融模式能较

期刊

农业贷款农业供应链金融现代农业

如何应对海外税收争议

2013年,"一带一路"的战略构想受到全世界的密切关注,也使更多的中国企业将目光投向"一带一路"周边国家和地区。2叭4年,商务部新修订的《境外投资管理办法》大幅降低了中国企

期刊

税收争议相互协商程序东道国“走出去”企业企业对外投资商务部税收协定

PE-RT管材专用料长支链流变表征

用毛细管流变仪、Rheotens拉伸流变仪、旋转流变仪研究PE—RT管材专用料的流变行为。结果表明：3^#、1^#、4^#、5^#是少量长支链分子和大量线性分子的共混物；2^#具有星型结构，但

期刊

PE-RT长支链表观剪切黏度熔体强度动态流变

TLR2介导自噬调控小胶质细胞M1/M2表型进而调节细胞存活的研究

研究背景与目的自噬仍是目前研究的热点,我们知道,自噬是细胞中一种依赖于溶酶体的极度保守的生理过程,是细胞内物质再循环的有效机制。自噬是一种多步骤的动态生理过程,包括

学位

Toll样受体2细胞自噬小胶质细胞表型转变肽聚糖

岩牡蛎和长牡蛎杂交的受精细胞学观察

实验利用DAPI染色观察了岩牡蛎和长牡蛎正反杂交的受精卵在受精过程,减数分裂和早期卵裂的核相变化。结果表明,长牡蛎精子进入岩牡蛎成熟卵子后,激活卵子完成2次成熟分裂,同

期刊

长牡蛎岩牡蛎杂交细胞学观察

重庆市主城区疾控中心职工胜任力评价指标及其影响因素的研究

目的:建立区(县)级疾病预防控制中心职工胜任基层疾控行业相关工作的胜任力评价指标体系,了解基层疾控中心职工对疾控行业工作的胜任力现状,探索其胜任力的影响因素,从而将指标体系运用于指导基层疾控机构的人才队伍建设,指导疾病防控能力全方位提升,更好推动我国基层公共卫生事业和疾病防控工作的发展与进步。方法:(1)通过文献研究、预评价和专家会商,根据国内外既往研究,结合我国区县级疾控中心工作实际,初步确立基

学位

德尔菲法胜任力疾病预防控制中心现状影响因素

PLC翻转课堂教学实验系统设计与实现

为了提高PLC翻转课堂的教学效果,设计出了适合该教学模式的课堂教学实验系统。根据课堂教学和翻转课堂模式的特点,梳理出它们对PLC实验系统的要求。利用计算机、虚拟仿真、无

期刊

课堂教学实验系统翻转课堂可编程控制器虚拟被控对象

大数据时代下财务管理信息化的探讨

大数据时代,高等院校既面临着一系列的挑战,同时也为学校发展注入了大量的活力和动力。现代信息化的发展对学校的财务管理环境、管理方式等都引发了巨大的变化。现代信息化管

期刊

大数据时代财务管理信息化高校

基于极限学习机的语音情感识别

提出基于ELM的广义神经网络语音情感识别模型,对基于ELM的单隐层前馈神经网络模型,采用多点交叉和多点变异遗传算法对模型参数进行优化;对基于核函数ELM的广义单隐层前馈神经

期刊

语音情感识别极限学习机ELM核函数ELM支持向量机

改革开放以来中国婚姻家庭制度的嬗变

本文从择偶条件、家庭成立的决定因素、结婚仪式、家庭类型、家庭成员关系、离婚率等方面分析了改革开放二十多年来中国的婚姻家庭制度的演化过程,并充分肯定了这个过程的进

期刊

中国改革开放婚姻家庭

隐藏服务内容分类研究

与本文相关的学术论文