隐藏服务内容分类研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:xulingxuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络用户对隐私保护要求的不断提高,匿名通信技术与隐藏服务机制(又名暗网)得到快速发展。然而隐藏服务强匿名性和难以追踪的特点为非法活动提供了庇护场所,非法服务层出不穷,给网络空间安全带来了严重威胁。因此,研究隐藏服务非法活动的分类,对防止和打击违法犯罪行为,具有重要意义。由于隐藏服务域名发布方式隐蔽,非法网站数量分布不均衡,且内容迁移更新频繁,大规模数据采集与标记具有一定难度,因此当前隐藏服务非法内容分类研究中存在数据集规模小、目标类别少、难以分类新型非法活动等难点。针对这些问题,本文以Tor隐藏服务为研究对象,提出了基于法律规制的隐藏服务非法活动分类方法,利用相关法律法规判定非法隐藏服务,结合TF-IDF特征权重计算和机器学习分类算法,实现了对隐藏服务非法网页的有效分类。本文主要工作与贡献如下:(1)在数据采集阶段,通过研究Tor隐藏服务发布与访问机制,设计了 Tor隐藏服务发现与收集系统,使用爬虫框架实现了从Tor隐藏服务目录类网站和明网搜索引擎关键字检索两种渠道发现和收集Tor隐藏服务域名的功能,构造了基于Tor隐藏服务的非法活动网页数据集,为后续分类研究提供测试数据。(2)提出基于法律规制的隐藏服务非法活动分类方法,使用法律文本作为隐藏服务非法活动的分类判定依据。该方法的研究重点是法律训练样本的提取与构造,针对从HeinOnline法学数据库中检索的目标类别适用法律,通过分析美国制定法和判例法的结构特征与行文规范,结合FindLaw术语库生成法律专用停用词表,过滤干扰信息。采用TF-IDF算法提取类别关键词,通过在本文采集的数据集上进行了小规模分类测试,初步证明该方法的可行性。(3)在方法实现阶段,提出了基于TF-IDF改进的特征权重算法。针对TF-IDF在网页文本分类中的局限,结合隐藏服务非法网页结构特点引入基于HTML标签的特征权重系数,提升筛选出特征词的类别区分度。将法律训练样本和非法隐藏服务测试样本分别构造为空间向量模型,使用8种机器学习分类算法进行训练与分类实验,其中贝叶斯分类器表现最好。实验结果表明,基于法律规制的分类方法使用TF-IDF特征权重计算和贝叶斯分类器达到了 93.5%的分类准确率,改进的ωTF-IDF算法比之提高了 2.6%的准确率,通过在DUTA数据集上与传统方法进行对比实验,本文方法使用小规模且易获取的法律训练集实现了与传统方法相当的分类精度。该方法不依赖于大规模隐藏服务训练模型,且对于还未泛滥的新型非法活动,该方法在掌握法律支撑材料的情况下,同样能够实现有效分类。
其他文献
习总书记在十九大报告中指出,要实施乡村振兴战略,三农问题关系着国计民生。近年来,黑龙江省深入推进农业供给侧结构改革,积极将农业与供应链金融相结合,供应链金融模式能较
2013年,"一带一路"的战略构想受到全世界的密切关注,也使更多的中国企业将目光投向"一带一路"周边国家和地区。2叭4年,商务部新修订的《境外投资管理办法》大幅降低了中国企
用毛细管流变仪、Rheotens拉伸流变仪、旋转流变仪研究PE—RT管材专用料的流变行为。结果表明:3^#、1^#、4^#、5^#是少量长支链分子和大量线性分子的共混物;2^#具有星型结构,但
研究背景与目的自噬仍是目前研究的热点,我们知道,自噬是细胞中一种依赖于溶酶体的极度保守的生理过程,是细胞内物质再循环的有效机制。自噬是一种多步骤的动态生理过程,包括
实验利用DAPI染色观察了岩牡蛎和长牡蛎正反杂交的受精卵在受精过程,减数分裂和早期卵裂的核相变化。结果表明,长牡蛎精子进入岩牡蛎成熟卵子后,激活卵子完成2次成熟分裂,同
目的:建立区(县)级疾病预防控制中心职工胜任基层疾控行业相关工作的胜任力评价指标体系,了解基层疾控中心职工对疾控行业工作的胜任力现状,探索其胜任力的影响因素,从而将指标体系运用于指导基层疾控机构的人才队伍建设,指导疾病防控能力全方位提升,更好推动我国基层公共卫生事业和疾病防控工作的发展与进步。方法:(1)通过文献研究、预评价和专家会商,根据国内外既往研究,结合我国区县级疾控中心工作实际,初步确立基
为了提高PLC翻转课堂的教学效果,设计出了适合该教学模式的课堂教学实验系统。根据课堂教学和翻转课堂模式的特点,梳理出它们对PLC实验系统的要求。利用计算机、虚拟仿真、无
大数据时代,高等院校既面临着一系列的挑战,同时也为学校发展注入了大量的活力和动力。现代信息化的发展对学校的财务管理环境、管理方式等都引发了巨大的变化。现代信息化管
提出基于ELM的广义神经网络语音情感识别模型,对基于ELM的单隐层前馈神经网络模型,采用多点交叉和多点变异遗传算法对模型参数进行优化;对基于核函数ELM的广义单隐层前馈神经
本文从择偶条件、家庭成立的决定因素、结婚仪式、家庭类型、家庭成员关系、离婚率等方面分析了改革开放二十多年来中国的婚姻家庭制度的演化过程,并充分肯定了这个过程的进