面向网络安全领域的命名实体识别方法研究

来源 :李大岭 | 被引量 : 0次 | 上传用户:arski
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是知识抽取的重要部分,是构建知识图谱的首要任务。如何快速准确的从海量的文本中对有用的信息进行识别抽取是近年来学术研究的热点问题。而随着大数据时代的到来,网络入侵、病毒感染等网络攻击事件越来越频繁,网络攻击严重影响了计算机使用的安全性。没有网络安全就没有国家安全。为了保证网络空间安全,国家通过各种技术实时监测网络,由此产生了大量的网络安全数据。本文基于深度学习技术,将神经网络模型应用于网络安全领域的实体识别工作中,通过词嵌入然后进行编码最后使用条件随机场进行解码,最终实现实体的识别工作。针对网络安全命名实体识别的研究,提出了一种融合汉字多源信息的命名实体识别神经网络模型,且针对缺少领域内的命名实体识别语料库的问题,构建了网络安全的实体识别语料库。具体的研究内容如下:(1)构建网络安全领域实体识别语料库。针对网络安全领域缺少公开的网络安全实体识别语料库,收集了国家安全漏洞数据库信息作为语料库文本数据来源从而确保了数据源的真实有效性。收集的数据包含近五年的操作系统模块、应用程序模块、数据库模块、web应用模块、网络设备模块等模块的漏洞信息,确保了语料库的历时性与全面性。语料库经过预标注阶段和最终标注阶段两个阶段,由网络安全领域专家制定标注规则和规范,然后开发标注工具培训标注人员。最终整个网络安全语料库包含40万字,按照BIO的方式进行标注,并以训练集:验证集:测试集=6:2:2的比例进行分配。(2)提出融合汉字多源信息的网络安全命名实体识别神经网络模型。为提高神经网络模型的准确率,该模型使用预训练模型BERT最后一层的输出作为原始词嵌入,并将语料库中文本的偏旁、字频等信息进行向量拼接融合从而提供足够多的先验知识,在编码层进行特征提取的同时将词汇信息进行进一步融合,通过条件随机场进行最后的解码。为了验证该模型的普适性,与常见神经网络模型在公共领域数据集上进行对比实验,模型表现性能良好,为证明该模型在网络安全领域的有效性,与常见模型在构建的网络安全领域数据集上进行对比实验,实验结果精确率、召回率和F1值为0.8649、0.8402和0.8523。(3)构建网络安全实体识别系统。为了提高网络安全领域命名实体识别的准确率和效率,基于提出的融合汉字多源信息的网络安全命名实体识别神经网络模型构建了网络安全实体识别系统。整个系统简洁实用,前后端分开,基于python和HTML等语言开发,能有效提升网络安全领域实体识别的效率和准确率。
其他文献
软件定义网络(Software Defined Networking,SDN)这种新型架构已经在物联网、车联网、广域网及5G网络中广泛采用。然而,SDN也面临着诸多安全问题,其中SDN控制器集中的特性更易遭受分布式拒绝服务攻击和端口扫描等未授权恶意攻击。同时,传统的“边界防御”安全模型也无法阻止内部恶意用户和软硬件漏洞造成的网络攻击,如何解决SDN中存在的网络攻击成为了越来越多研究学者所关注的重点
学位
工业控制系统(Industrial Control System,ICS)是工业生产过程中所应用的计算机控制系统的统称,它广泛应用于制造、能源、交通和水电等行业,是关乎国计民生的重要基础设施,其安全稳定运行关系到国家经济发展和人民群众的生命财产安全。工业控制协议(Industrial Control Protocol,ICP)是指用于工业控制系统间实现实时数据交换采集、核心参数配置、系统实时运行状
学位
域名系统(Domain Name System,DNS)是一个分布式数据库系统,用于实现域名与IP(Internet Protocol)地址之间的相互映射。DNS允许互联网用户通过使用易于记忆的域名代替IP地址来访问网站。然而,DNS本身并不具备防御功能,使得DNS成为攻击者攻击网络的入口。例如DNS劫持和欺骗、网络钓鱼、恶意软件传播和网络诈骗等,这些攻击给网络和用户的安全带来了重大的影响。因此,
学位
模糊测试技术是重要的漏洞检测技术,该技术按照制定的策略生成测试用例,将其输入到被测试对象中,用以检测被测试对象中存在的漏洞信息。然而在传统的改进思路中,检测开始之前就将模糊测试的策略确定下来,导致在模糊测试的检测过程中无法根据实际的执行情况对策略进行调整。即便检测策略不适合检测对象,模糊测试仍然只能按照既定策略继续执行下去。由于不可能为每一个检测对象都单独制定一个适合的模糊测试策略,且制定一个适用
学位
随着大数据和人工智能技术的迅速发展,产生了大量的数据和数据服务。云计算以其计算能力强、存储空间大等特点成为数据处理的理想平台。k最近邻算法以其高准确率、高计算速度和简单性广泛用于机器学习的分类服务。将k最近邻算法部署到云服务器会降低数据所有者的运营成本和提高服务质量。尽管云计算带来许多优势,但将数据和数据服务外包到云端会导致数据安全问题。包括用户的查询信息泄露、查询结果隐私泄露和外包数据集的隐私泄
学位
信息物理系统(Cyber Physical System,CPS)的高速发展与应用实践,促进了人类生产生活中的各领域面向信息化、数字化、智能化发展的进程。由于CPS各层级之间存在信息感知和数据交互的无线通信过程,具有开放性和脆弱性等特点,导致系统极易受到恶意网络攻击的威胁,如拒绝服务(Denial of Service,DoS)攻击、虚假数据注入(False Data Injection,FDI)
学位
高性能计算作为有效可靠的计算技术已经渗透到各个研究领域,目前在材料工程学中的应用也非常广泛。优质金属的生产依赖于对凝固过程中显微组织及缺陷的有效控制,受到多种因素的影响,若采取数值模拟对其进行定量研究,可极大降低传统实验所需成本。合金的凝固涉及气/液/固三相之间的复合转变,气孔是造成凝固缺陷的主要因素之一。相场法(PF)以不用显示跟踪区分界面、易于结合其他外场的特点被应用于凝固动力学及流体动力学的
学位
近年来随着云计算和分布式计算技术的快速发展,云计算的各种产品也如雨后春笋般涌现。基于物理资源虚拟化的技术,在云计算基础设施及服务层面上进行资源调度研究是支撑各类云计算产品的基础。但当前云计算资源管理仍然处于初级阶段,大量的虚拟机、存储设备、网络资源等基础设施得不到更有效的应用,加重全球互联网负担,并产生巨大的服务端资源浪费和能源消耗,已成为制约云计算相关技术发展的一大痛点。学术界已就云计算资源调度
学位
学位
高级持续性威胁(APT)攻击是工业控制系统(ICS)面临的最严重挑战之一,因此,探索、分析和防御ICS中APT攻击问题是网络与信息安全领域中重要的研究课题。本论文的研究主要针对现有威胁模型存在的不足、非结构化网络威胁报告(CTR)中提取战术、技术、过程(TTP)难度大、归因技术无法真正确定网络攻击真实来源等问题,利用集成的威胁模型、威胁报告和机器学习等关键技术对ICS中APT攻击的威胁建模、非结构
学位