暗网数据高效获取技术研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qq669783
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
位于互联网多层结构最下层的暗网,由于本身的特性使得其成为违法交易、活动的滋生地。这严重危害了网络安全,也对社会稳定和国家安全带来了极其严峻的挑战。因此,对暗网进行监测管控势在必行,但是想要获取暗网中的数据是极不容易的。基于此,本文对暗网数据难以获取的问题进行了深入研究,并设计实现了一个暗网数据获取系统。主要工作内容如下:(1)针对暗网域名难获取的问题,本文提出了包含两种优化与两种辅助在内的四种域名获取方法。第一,手动浏览目录网页,收集域名;第二,改进的onionscan扫描收集方法;第三,改进关键字搜索算法,并结合Tor2web项目对域名地址展开收集;第四,暗网页面收集域名。四种域名收集方法总计获取13854条域名。其中收集效率最高的是方法二,总共收集8176条,平均每小时约341条;效率最低的则是方法一,总共567条,平均每小时约54条。(2)针对暗网数据难获取的问题,本文针对两类暗网数据提出了三种获取方法。第一,用户空间数据获取,采用Scrapy框架与Tor(the second-generation onion router,第二代洋葱路由)结合的方法,成功访问暗网并获取到网页数据;第二,本文设计了两种方法来获取网络空间数据。其一是通过节点注入,抓取流经节点的数据包来获取网络空间数据。其二是使用onionscan扫描的结果文件,借助shodan工具查询得到网络空间数据。最终总计获取到48091条用户空间数据,其中与毒品、私人信息相关的数据约占67%;而网络空间数据则是总计获取到6176条,其中大部分是中间转发节点的数据,少部分是服务器节点数据。(3)本文设计并实现了一套完整的暗网数据获取系统。结合前面针对暗网域名地址与暗网两类数据的获取研究,本文设计出暗网数据获取系统,包含了域名地址获取与用户空间数据、网络空间数据获取等三个模块,详细阐述了每个模块的设计与实现,然后通过设计相应的数据表来存储获取到的暗网数据与域名。并针对三个模块设计了三个功能测试用例,最后通过可视化页面对数据进行展示,包括暗网中数据经过统计的结果信息,以及暗网节点的分布以及相互间的通信关系等。
其他文献
对话系统作为自然语言处理的重要研究分支,在近几年持续受到研究者的关注。海量数据的出现和深度学习的快速发展为对话系统的建模提供了重要支持。对话系统一般分为任务型和检索型,任务型对话系统需要从对话中对用户意图进行识别并完成特定任务;检索型对话系统需要根据多轮历史对话,结合深度匹配模型,从回复模板库中检索出与当前对话最为匹配的回复候选项。检索型对话系统的回复检索性能,容易受到数据集质量的影响,并且当前的
网络技术的发展,促进了社会经济的进步,同时也带来了新的安全风险,入侵检测是维护网络安全的关键技术之一。入侵检测可以看作分类问题,可从分类的角度进行研究。本文研究工作如下:(1)针对入侵检测中已知类别的检测问题,设计了权重森林算法。权重森林属于集成学习,从多样性与准确性的角度设计。权重森林多样性体现在数据样本扰动、每颗树只由一个属性生成和权重矩阵的更新方式;权重森林准确性通过激活函数与全连接层保证。
随着深度学习的快速发展,人工智能已经越来越多的出现在人们的社会生活中,也越来越多地应用到以嵌入式终端为载体的安全关键领域,比如无人驾驶汽车、人脸识别等。卷积神经网络在这些安全关键应用中发挥着重要作用。但部署卷积神经网络的硬件可能由于外界的环境因素发生异常,出现电压异常导致跳变等情况,这会使得模型的权重出现比特翻转错误,这种权重错误可能导致模型的精度下降,最严重的情况可能会导致模型瘫痪。因此,本文选
在产品生产过程中,由于制造工艺简单、操作不当等因素,导致产品表面缺陷难以规避。若未能及时处理这些缺陷,将对产品的外观和功能产生重大影响。传统的人工检测依靠肉眼识别缺陷,存在速度慢、成本高的缺点。伴随图像处理、模式识别等技术的发展,基于机器视觉的自动检测已充分应用于产品质检环节。但是,针对产品表面存在的微小缺陷,机器视觉检测难以充分提取微小缺陷的特征信息,漏检现象时常发生。由于深度学习拥有自主学习特
脊柱分割是脊柱图像定量分析中的关键组成部分,一个好的椎骨分割结果有助于计算机医学辅助系统的使用,并为后续脊柱医学任务打下坚实的基础,因此研究脊柱椎骨的分割方法具有重要意义。然而传统的医学图像分割技术已经不能满足当前医学发展需求,正逐渐转向使用基于数据驱动的分割方法,其中深度学习技术就是方法之一。它从大量的医学图像中提取关键信息,最终得到准确度高于其他分割方法的结果,目前已成为主流医学图像分割方法。
在图像识别技术领域中,摄像头老化和复杂多变的外界环境等原因使得采集的图像中会参杂大量的噪声,从而导致图像识别准确率不高。然而神经网络和忆阻器的有效结合不仅可以大大改变人工智能领域的发展,也可以在有限的数据集下很好地抑制图像中含有的噪声。本文首先将忆阻器和卷积神经网络结合起来进行车辆标志图像识别,设计了一种全新的数字图像预处理算法;为了模拟真实场景中的噪声,然后基于VLR-40数据集构造四类新的数据
图神经网络(Graph Neural Network)是一种作用于图状数据结构上的深度神经网络。本质上,图神经网络通过了图节点之间的信息传递,从而捕捉到全局图的结构信息。其中,每个节点在其卷积层中聚合了来自邻居节点的特征。本文将图神经网络方法应用于计算机视觉领域中的目标检测与识别任务之中。该任务要求定位特定图片中物体的位置,并通过识别算法给出物品的类别标签。目前,常用的目标检测与识别模型往往基于卷
对话系统一直是人工智能领域研究的重点方向。智能对话系统对于未来人机交互的研究非常重要。而开放域的对话系统也已被证明在许多领域比任务型对话系统更加重要,目前,在开放域的对话方面采用较多的就是端到端的对话生成模型,但是端到端的模型具有一定的弊端,比如对话生成的结果趋于泛化,不能模拟人类对话的情绪表达,不能实现带有目的性的对话,而且在多轮对话中的话题转移性较差等等。对于端到端多轮对话系统,缺少高质量的多
人体姿态估计是从图像中预测人体关键点坐标的任务。它是一些更高级的视觉任务的基础和前提,并被广泛应用于如人机交互、监控等领域。近些年来,人体姿态估计已经成为了计算机视觉领域中一个热门的研究方向。目前研究者们已提出了一些效果良好的二维人体姿态估计算法,但是现有算法一般不能输出关键点的可见性/遮挡信息,即使利用了相关信息也仅用于帮助提高关键点预测的精度,而关键点的可见性/遮挡信息对于像行人重识别、动作识
近年来,将深度学习引入图结构数据引起了研究者的兴趣,对图形结构寻求更好的表示学习成为研究热点,其中图神经网络(GNN)被广泛应用于社会网络分析、引文网络分析、推荐系统等研究领域。虽然图神经网络领域已出现很多优秀的模型,并在解决密集型图结构数据应用上取得了很好的效果,比如链路预测、节点分类、关系抽取等。但传统的研究方法都是利用固定的学习算法从头开始求解任务,需训练大量数据才能取得理想的效果,且无法迁