基于开集分类的网络协议指纹识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lullm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网规模的不断扩大,应用程序种类的增多,网络协议种类随之剧增。这给网络的管理以及分析带来了巨大挑战,网络流量分类是对网络进行管理及分析的首要步骤,实用的网络流量分类方法能够提升网络管理的效率,进而提高网络的质量。有效的网络分类方法能够提升网络分析的准确性,从而提高网络的安全性。目前多数基于深度学习的网络流量分类方法无法对训练集外的未知类别进行区分,这类分类器在实际使用中的性能相比实验结果会有一定落差。传统机器学习能够通过聚类等技术对未知类别进行区分,由于其主要依赖于特征工程,往往正确率不高。本文主要研究基于开集分类的深度学习模型,主要做了以下两方面工作。为了使深度学习模型能够对训练集外的未知协议指纹进行区分,我们引入了openmax从而在原有的softmax输出中添加用于识别未知类别的维度,以及另一种基于三元组损失的深度模型构建方法,将输入的样本映射到嵌入空间,通过给定的距离阈值实现对未知和已知协议指纹的识别。本文提出了两种端到端的深度学习模型分别以数据包和双向流作为输入,用来从流量样本中自动提取特征,与提出的两种未知类识别方法结合构成4个模型。在对数据的处理中,我们使用多种数据的预处理方法,对可能引起过拟合的字段进行修改或剔除。最后我们另外采集了12种协议指纹流量样本作为未知协议指纹,结合ISCXVPN2016数据集对4个模型进行性能测试。结果表明双向流作为输入的模型性能普遍会高于数据包作为输入的模型,三元组损失方法相比openmax方法性能高10%左右,其中三元组损失方法正确率最高可达84.75%。我们将模型与不同场景下的其它工作进行对比,在闭集分类场景下正确率相差10%左右,在开集分类场景下与已有工作相比有一定的提高。考虑流量分类在实际场景中的应用,针对模型识别出来的未知协议指纹类,我们提出了面向开放世界识别的协议指纹识别方案。方案使用Bof方法对未知类进行标记,生成新的已知类别。并结合增量学习相关技术,我们对部分训练样本进行保存,使用样本回放以及知识蒸馏的方法对模型进行更新。本文实现了对以数据包作为输入的基于三元组损失的开集分类模型添加新的已知类的方法。对于该方案我们进行了仿真实验,模拟模型在实际过程中增加新协议指纹后的性能变化。仿真实验测试了12种协议指纹依次添加后对模型正确率指标的影响。实验结果表明,模型最后正确率为48.14%,正确率下降幅度在40%以内。
其他文献
作为大数据成熟应用中不可或缺的组成部分,云计算可以给大多资源受限的终端设备弥补高性能计算等能力。云存储作为其中的一个分支服务,它使得数据用户能够将本地数据上传至独立的海量存储空间,且不用承受数据意外丢失的风险和本地管理的负担。然而作为一个相对独立的实体,云服务提供商可能存在有损数据完整性安全状态的不诚实行为,因此它并不完全可信。远程数据审计是一种确认云端数据是否有效保存的交互技术,数据用户通过该技
学位
机器学习作为一种数据驱动的关键技术,在人工智能领域发挥着重要作用。然而随着数据孤岛问题的加剧,传统机器学习模型已无法有效应对跨领域数据隔离、跨行业数据多样、跨应用模型复杂等问题。联邦学习作为一种多方协作的机器学习框架,能够使多个机构在不共享原始数据的情况下,仅通过本地模型参数的交换,进行数据使用和建模,大幅提高用户数据的安全性,有效解决数据孤岛问题。当前的联邦学习框架对联邦参与者身份缺乏有效认证,
学位
随着电子邮件应用的快速发展,它在方便用户沟通的同时,其安全性也面临着挑战。目前,各大主流电子邮件运营商都提供了基于商业SSL(Secure Sockets Layer)的加密传输,但是邮件内容在服务器和客户端上仍然是以明文的形式进行存储。近年来,商业邮件服务器被攻击导致的邮件泄露事件,以及邮件运营商管理员监守自盗偷窥客户邮件事件屡有发生,给用户带来了极大的安全威胁。同时,为了实现对加密算法的自主可
学位
Web应用在给人们生活带来便利和高效的同时,也带来了很多安全威胁。Web注入漏洞作为其中影响最广泛的一种,通过向Web应用进行恶意注入,导致数据丢失或破坏、缺乏可审计性或是拒绝服务,具有很大的危害性。因此,如何对Web注入漏洞进行有效的检测,成为了目前漏洞检测研究工作的重中之重。常见的Web注入漏洞检测主要分为传统检测和基于机器学习的检测,其中传统检测主要包括动态检测和静态检测。模糊测试是目前应用
学位
吉村迂斋(1749-1805)是日本江户中期的一位汉学家,而长崎在江户时代是整个日本对外交流的窗口,生于斯长于斯的吉村迂斋可谓近水楼台先得月,为其中年开始的汉诗文创作打下了良好的儒学和唐话基础。然而由于其诗文集发现较晚,虽然吉村迂斋的诗文在当时的评价很高,但到目前为止日本学界对他的研究仍寥寥无几,国内也尚无相关研究。因此笔者将对吉村迂斋的六百多首各体汉诗和七十多篇汉文进行细致的分类研究,一方面可丰
学位
<正> 从1972年开始,我们摸索了一种不加碳酸钠而直接用Na2S将苦味酸转变成钠盐,同时进行还原的新方法。经过上百次的小型实验和几个月的试产,并请冶金部矿冶研究所做了爆炸性能方面的鉴定,经过7年以上的储存和
期刊
工业互联网是新一代信息技术和制造业融合的产物,也是物联网在工业制造业中的应用。制造业脆弱的基础网络融合到互联网中,带来了许多的安全隐患和问题。工业数据安全通信成为了未来工业互联网安全防护的重点和热点之一。加密和其他密码学技术被认为是解决这一问题的重要手段,且平衡高效率和安全性在资源受限的工业环境下十分重要,因此高效的工业数据安全通信机制有着重大研究意义。签密作为一个密码学原语,可以在一个逻辑步骤内
学位
DGA(Domain Generation Algorithm,域名生成算法)是恶意软件利用随机字符生成伪随机域名用来逃避域名黑名单检测的方法,也是僵尸网络进行信息窃取的技术手段之一。在DNS域名解析使用如此广泛的今天,该技术也就自然而然的成为了关注的重点研究对象。在域名流量中检测此类恶意域名,采取措施破坏通信过程并识别出受感染的计算机,在网络安全是至关重要的一环。通过收集域名数据,提取恶意域名中
学位
社会工程攻击是攻击者利用受害者的心理弱点实施的网络攻击。近些年随着网络钓鱼检测技术的不断发展,对于偏技术层面的网络钓鱼检测水平不断提高,这导致攻击者更偏向于从心理层面欺骗用户达成攻击目标,因此对基于社会工程学的网络钓鱼攻击的研究是当前的一个研究趋势。本文是在对邮件相关基础知识有了足够研究的基础上,对钓鱼邮件检测方法做出了进一步改进,包括完善传统的心理特征检测方法,以及发现可以用于钓鱼邮件检测的特征
学位
随着网络应用的快速发展,通过了解网络协议以了解网络实体之间的通信对于漏洞研究、渗透测试、恶意软件分析等是必要的。网络协议逆向是推断网络协议规范的一种途径,这种途径有特定的挑战、任务、方法和解决方案。通过对网络协议的逆向研究,可以获取网络协议规范的细节,对于网络管理、网络攻防有着重要的意义。目前协议逆向工程的研究还存在以下难题:推断网络协议规范是面向同种协议报文的研究过程,但是真实网络环境下采集的网
学位