基于自然语言处理的威胁情报自动化提取模型的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:snsjgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今网络科技的飞速发展同时也伴随着网络空间安全问题的层出不穷,但是传统网络攻击防御方案无法应对呈现复杂性、多元化的新型网络攻击手段,从而导致严重的网络瘫痪和经济损失。以攻击威胁信息数据为核心的网络威胁情报技术的出现,为日益紧张的网络空间提供了安全防御保障。对新型攻击手段如高级持续性威胁(Advanced Persistent Threat,APT)和恶意软件攻击等有组织有规划的攻击手段,需要安全防御者能够从网络空间中广泛分布的情报数据中及时分析检测出正在发生或者即将发生的威胁攻击,并将其转化成机器可读的威胁情报部署到入侵检测系统等网络防御基础设施中从而实现快速联动响应和攻击防御。但是直接通过人力分析大量公开的非结构化威胁信息从而获取威胁情报显然是不现实的,因此如何从广泛分布的开源非结构化威胁信息中高效且准确地自动化识别和提取威胁情报,对网络空间安全威胁检测和攻击防御来说都非常重要。本课题主要对广泛分布在网络空间中的威胁情报信息的自动化提取进行了研究,其主要工作内容有:(1)针对网络空间中存在大量的开源非结构化威胁文本信息数据,本课题搭建了基于自然语言处理技术的特征提取模型BERT(Bidirectional Encoder Representation from Transformers),将语义文本信息抽象提取成为机器可读的特征向量矩阵。该模型能够结合上下文语义信息,在特征向量中更准确地体现威胁情报数据特征,同时也进一步提升后续模型的训练效果和性能表现。(2)针对如何从开源非结构化威胁文本信息数据中自动分辨文本中的威胁情报信息和非威胁情报信息的问题,本文提出了基于卷积神经网络(Convolutional Neural Network,CNN)算法的分类模型,从基于BERT的特征提取模型得到的威胁情报特征向量矩阵,来训练分类模型学习潜在的情报数据信息特征和实体关联关系,从而进一步实现自动化识别和提取非结构化语义文本中的威胁情报句子。本文通过对比实验可以证明,本文模型在收集的数据集上是有效的,并且在正确率、准确率、召回率和F1分数方面与对照方法相比具有更出色的性能表现。同时,实验结果也证明了本文提出的基于CNN的全新分类模型可以显著提高威胁情报提取的效率和准确性。(3)针对企业用户和普通用户对于威胁情报自动化提取的市场需求和业务功能需求,本课题设计实现了一个威胁情报自动化提取系统。该系统以广泛分布在网络空间中的结构化威胁情报数据与非结构化威胁情报文本信息数据作为目标利用网络分布式爬虫技术进行实时收集,并且采用基于BERT和CNN的威胁情报自动化提取模型来提取非结构化威胁文本信息中的威胁情报句子,并将其封装成为机器可读的格式化威胁情报,该模型显著提高了威胁情报自动化提取系统的效率和准确率,最后本课题还对系统进行了各项功能和性能测试,测试结果验证本文系统的设计与实现基本达到了预期,能够满足威胁情报自动化提取的现实需求。综上所示,本课题针对自动化提取对象的威胁情报进行了深度调研和分析总结,同时探索了应用自然语言处理技术分析威胁情报的重要性和必要性,并搭建了基于BERT的特征提取模型,提出了基于CNN的分类模型,这两个模型共同组成了基于自然语言处理的威胁情报自动化提取模型,该模型比其他主流模型在性能和准确率上均有更为优秀的表现,并在该模型基础上,本课题设计实现了一个威胁情报自动化提取的原型系统,并通过各项功能和性能测试证明系统具备实用性和稳定性,为威胁情报应用和部署提供了切实的数据保障。
其他文献
随着经济的发展,越来越多的投资者涌入资本市场中,由于定向增发的审核并没有比其他融资方式更严苛,且没有要求上市公司在过去一段时间内的业绩要符合某种标准,因而定向增发逐步超过配股和公开增发成为上市公司普遍采用的主流再融资方式。由于证监会要求实施定向增发的上市公司必须提供无保留意见审计报告,为了达到引进战略投资者、缓解财务压力、规模扩张等目的,上市公司因为想得到更“干净”的审计报告铤而走险与审计师合谋进
旅游业是关系民生的幸福产业,是一二产业蓬勃发展的促进力量。新时代以来,我国经济发展取得重大成就,人民生活水平显著提高,人们对于精神愉悦程度的追求日益突出,旅游业在需求“拥挤”的驱动下显现出供给“拥挤”趋势,并在需求与供给的二元结构中蓬勃发展。据国家旅游局统计,2019年全国旅游总收入达10.94万亿元,对GDP贡献率为11.05%,旅游业提供就业岗位7987万个,占全国就业人口的10.31%,旅游
集中供热是我国北方区域冬季采暖的主要方式。伴随着我国城镇化的高速推进,北方城镇建筑面积不断增长,北方城镇集中供热面积亦随之快速增长。2017年中央政府印发了《北方地区冬季清洁能源取暖规划(2017-2021)》,中国供热行业进入了清洁能源改造的快速上升期。与此同时,国家对环保治理的重视和对污染源的管控加强,对供热企业生产环节中的节能环保、低碳高效提出了更严苛的要求,三供一业”移交政策对经营供热服务
分子印迹已经成为研究分子识别与调控的重要手段。由于模板分子的使用,分子印迹聚合物(molecularly imprinted polymer,MIP)含有大量识别位点,它们与模板一一配对,保留了对模板分子的“记忆”,具有较强的亲和性与特异性识别能力。分子印迹冰胶是在冰冻状态下合成的一种具有三维网状结构超大孔高分子材料,因为印迹位点为数众多,所以每一小块冰胶做成的膜电极都是“分子电容器”的巨大阵列,
面对输入及输出因素间具有复杂非线性关系的系统,传统分析方法往往显得无能为力,难以获得预期效果。随着智能分析方法的飞速发展,人工智能算法逐渐应用于各类工程领域复杂系统的预测分析。人工神经网络可以很好的逼近非线性函数,在数据预测中有着重要作用。Elman神经网络作为动态反馈网络的代表相较静态BP神经网络具有一定的优点,但仍然存在易陷入局部极值、预测精度不能达到预测要求的不足。本文利用改进的单体智能算法
方程应用题作为数学应用题的重点题型之一,在初中数学教学中占有重要地位,对培养学生用数学知识解决实际问题的能力,有着重要的作用。方程应用题的学习贯穿整个初中阶段,大学毕业后,笔者曾参与吉林省某项支教计划,到乡镇中学支教两年。通过.对所教班级学生情况的观察以及与其他农村学校教师的沟通,笔者得知,学生对方程应用题的理解较为困难。近年来,国内外对数学应用性的要求逐渐提升,我国亦提出了着重培养创新型、复合型
随着万物互联互通时代的到来,准确、可信、高度可用的网络时间是所有网络应用场景正常运行的基础。利用网络传递时间信息的方式吸引了越来越多的关注。网络时间同步不需要额外的同步设备便能够满足绝大多数业务时间同步的需求,具有成本低廉、应用广泛以及方便快捷的优势。另外,伴随着网络应用场景的多样化增加,催动着网络时间同步对可靠性、高精度等等的需求。本文意在搭建一套互联网时间服务监测系统,持续监测世界范围内互联网
用户兴趣爱好建模是推荐系统中的研究热点,它要求从用户的购买记录中准确识别用户的兴趣爱好并精确提取相关兴趣特征。用户兴趣爱好建模的结果直接决定推荐系统后续的决策,因此,如何从用户交互数据中提取出用户兴趣爱好成为一个十分有价值的工作。其中,用户行为序列和评论信息是用户交互记录中的两种重要数据信息。用户兴趣爱好建模根据预测的目标不同可以分为两种。一种是评分预测,预测用户对未购买商品的评分。评分是精确的数
粮食是任何国家不可或缺的经济物资和战略物资,粮食安全关系到国民经济发展安全和国家社会安定团结,越来越受到各个阶层的广泛重视。我国作为传统的农业大国和拥有14.5亿民众的人口大国,储粮备荒是长期以来保障人民口粮存续的实践经验。在我国粮食储备中,政府储备粮占有了绝对的调控优势,在平衡全国粮食总供需,维持粮价平稳,应对突发灾害等方面发挥了重要的作用。如2020年我国爆发新冠疫情期间,武汉市在暂停全市生产
我国物有所值评价由于数据积累不充分、评价方法不完善、政府主导评价等原因,导致评价有待完善。为此,国家建立了财政部PPP项目库,旨在为各行业提供数据挖掘和分析的基础,目前,针对物有所值评价数据分析利用的研究还比较少,尚未形成成体系的研究思路。为了探究物有所值评价数据的研究利用方法,分析实操过程是否与国家政策导向和理论相符,本文对财政部PPP项目库中297个黑臭水体治理项目数据、对中央国务院和国家部委