基于分布式爬虫的高性能Tor网络内容监控系统

来源 :信息安全学报 | 被引量 : 0次 | 上传用户:liuyu80237029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展和普及,人们对于安全性、匿名性、反审查等信息安全的需求快速增强,越来越多的人开始关注和研究Tor匿名通信网络。目前针对Tor网络内容监控的研究工作大部分存在功能少、性能弱等劣势,如缺乏为暗网设计的专用爬虫,网络连接速度较慢,本文设计开发了一套综合性的Tor网络内容动态感知及情报采集系统,包含数据采集爬虫以及网页内容分类两个部分。其中爬虫部分使用了分布式架构,包括了任务管理模块、爬虫调度模块、网页下载模块、页面解析模块、数据存储模块,同时创新性地优化了Tor连接链路以提高爬取速度和稳定性;网页内容分类部分使用了自然语言处理技术,建立训练模型并对抓取到的信息进行精准高效分类,解决分类的准确度和复杂性问题,最后根据结果分析暗网的内容结构和敏感信息。我们也相应地为保障系统运行设计了容错模块和预警模块,从而对系统各个组件的当前状态进行实时监控,并将系统的状态数据进行整合、收集和展示。最后我们将该系统放到了实际Tor网络环境中进行了测试,从系统网页爬取效果、内容分类效果及系统性能等三方面进行了评估和分析,并与国内外7中现有的框架的功能进行了对比,证明本文提出的方案在暗网域名、网页、数据爬取的量级和速度性能方面均为最佳。
其他文献
动植物的许多重要经济性状以及人类复杂疾病均属于复杂性状范畴。基于混合线性模型的关联分析方法可以精确预测复杂性状的遗传结构,有效剖析其中的遗传机理。本课题组提出的混合线性模型方法适用于全基因组关联分析,并且研制了基于GPU计算的QTXNetwork软件,包括三个功能模块:QTL分析(QTLNetwork),全基因关联分析(QTS)和多组学关联分析(QTT)。然而生物学软件的发展远远落后于算法,现有的
学位
学位
学位
膜生物反应器(MBR)因其占地面积小、水质好、处理效率高等优点,而被广泛应用于废水处理和回用领域。然而,随着MBR系统运行时间的增长,膜容易受到不同程度的污染,导致运行成本的增加,MBR工艺的大规模应用将受到限制。本课题主要针对MBR膜污染这一问题,在解析和识别主要膜污染组分的基础上,结合表面分子印迹技术制备出一种功能化修饰的多模板分子印迹功能材料,并将其投加至MBR反应器中。通过对MBR系统中污
粮食立筒仓是一种适于原粮散存的直立构筑物,具备占地少、仓容大、机械自动化程度高等优点,是粮食物流中转节点设施的主要仓型。柱承式立筒排仓结构是粮食立筒仓的组合形式之一,是由多个单仓经单向排列并联为整体的筒仓。根据实际生产和工艺需要,排仓中的各单仓常会呈现盈空不同的贮料状态,使得排仓结构质量中心对刚度中心产生偏移,进而造成结构复杂的偏心扭转效应问题,这是排仓结构抗震性能研究亟待解决的一个关键科学问题。
学位
<正>1931年11月29日晚,南京麒麟门外沙子岗的一声枪响,年仅36岁的他消逝远去,至今已整整91年了。他,是邓演达先生。他短暂而又辉煌的一生,是曲折的、革命的、战斗的一生。91年过去了,暗淡了刀光剑影,远去了烽火硝烟。翻开厚厚的《回忆邓演达新编》,邓演达先生的革命信念与乐观主义精神跃然纸上。我在历史文献里“遇见”他铁骨铮铮的豪迈青春,“遇见”他百折不挠、坚定求索的一生。
期刊
学位
学位