基于恶意代码基因的攻击组织特征提取方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：a36020a

【摘要】

：

【作者】

：

李昂

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2021年01期

【关键词】

：

恶意代码基因攻击组织词向量特征提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,国家之间的网络对抗正变得越来越激烈,以高级持续性威胁为代表的定向网络攻击已经严重威胁到政府、军队和企业等重要机构和组织的网络安全。面对日益严峻的网络安全形势,安全人员亟需快速定位攻击来源,并从源头遏制网络攻击行为的能力。恶意代码是攻击者使用的重要工具和手段,但同时也是安全人员的重要溯源依据。目前基于恶意代码的溯源分析方法大多是从功能层面进行分析,但不同的攻击组织可以使用不同的方法包装同一功能的恶意代码,并将其用于攻击;而同一攻击组织也会针对不同目标,开发不同功能的恶意代码,以上情况给溯源攻击组织的工作带来了很大的困难。针对以上问题,本文主要研究从恶意代码中提取能够明确指向其攻击组织的可见字符串和汇编代码片段,将其定义为该攻击组织的恶意代码基因。恶意代码基因是同一攻击组织的恶意代码样本特有,而其他攻击组织样本不具备的信息,具有排他性。攻击组织特征是该攻击组织所有恶意代码基因的集合。在此基础上,本文提出了一种基于恶意代码基因的攻击组织特征提取方法,主要工作可以概括如下:（1）提出了一种基于TF-IDF与Word2Vec融合的恶意代码可见字符串向量化方法。在提取恶意代码可见字符串基因时,需要确定某个可见字符串是否仅在某个攻击组织的样本存在。为了便于可见字符串间的比较,需要将可见字符串转化为易于比较的向量,针对Word2Vec模型侧重于词语的语义信息而忽略每个恶意代码可见字符串重要性的问题,本文首先使用TF-IDF算法计算恶意代码可见字符串在攻击组织样本中的权重,然后对UNICODE编码和特殊模式的可见字符串进行了权重叠加,最后将其与原始Word2Vec向量拼接,得到既包含恶意代码可见字符串语义信息又包含其重要程度的向量表示。（2）提出了一种基于自注意力机制的双向循环神经网络的汇编代码表示学习模型。在提取恶意代码的汇编代码基因时,需要确定某一汇编代码片段是否仅在某一个攻击组织中存在。为了便于汇编代码片段间的相互比较,需要将汇编函数转化为易于比较的向量。本文提出的模型能够更全面的学习不同编译器和优化级别上生成的恶意代码汇编函数的上下文语义,得到包含语义的汇编代码向量表示,尽可能消除不同的编译器和优化级别对恶意代码函数相似性检测带来的影响。（3）提出了基于恶意代码基因的攻击组织特征提取方法。恶意代码基因是某一攻击组织的恶意代码样本中特有的可见字符串和汇编代码片段,攻击组织特征是则该攻击组织的所有恶意代码基因的集合。在提取过程中,需要移除与其他攻击组织样本高度相似的可见字符串和汇编代码片段。在将恶意代码可见字符串与汇编函数转换为对应向量后,计算向量之间的余弦相似度,然后按照相似度进行排序,若某个可见字符串或汇编代码片段与其他攻击组织的可见字符串或汇编代码片段高度相似,则将移除该可见字符串和汇编代码片段。通过不断迭代,提取出在当前恶意代码样本集下该攻击组织所有恶意代码基因,作为攻击组织特征。（4）开发了基于恶意代码基因的攻击组织特征提取系统。最后,经过多项对比实验,验证了本文所提出的攻击组织特征提取方法的有效性。能够有效溯源到攻击组织中的特有基因,与其他方法相比查全率和查准率有着明显提升。

其他文献

新型冠状病毒肺炎疫情下医护人员职业倦怠现状调查

目的调查新型冠状病毒肺炎疫情下医护人员的职业倦怠情况,以了解其工作状态,为减轻其身心压力,提升其工作效能提供依据.方法 2020年1-2月,采用便利抽样方法,选取广东省29家三级甲等综合医院370名临床医护人员作为调查对象.应用MBI-GS职业倦怠调查问卷对调查对象进行问卷调查,并对调查数据进行统计分析.结果调查对象个人情绪维度得分为2.0(1.0,2.6)分,去人格化维度得分为1.0(0.3,1.8)分,个人成就感维度得分为1.2(0.7,2.8)分.不同科室、职业类别、年龄及职称的调查对象其MBI

期刊

新型冠状病毒肺炎医生护士职业倦怠

20世纪二三十年代中国音乐思潮研究

20世纪二三十年代,中国音乐文化发生了巨大的变化,显著的特点体现在音乐思潮的不断涌现。全文将从国粹主义思想、整体西化思想和中西兼容思想、国乐改良思想四个方面来论述中国音乐思潮对中国音乐文化所产生的影响。客观地评价了20世纪的中国音乐思潮。

期刊

音乐思潮20世纪

剖宫产手术椎管内麻醉后发生低血压的危险因素分析

目的分析剖宫产手术椎管内麻醉后发生低血压的危险因素,为临床治疗制定防治策略.方法选取2019年5月-2020年5月在沈阳市某医院妇产科行椎管内麻醉剖宫产的160例产妇为研究对象,按照行椎管内麻醉后是否发生低血压将产妇分为低血压组与非低血压组,对麻醉后低血压危险因素进行分析.结果 160例剖宫产产妇中,共有71例产妇行椎管内麻醉后发生低血压,占比44.4％;单因素分析结果显示,2组产妇麻醉方式、术前心率、妊娠前体质量指数(BMI)、妊娠后体质量增长量比较,差异均具有统计学意义(P＜0.05);多因素Lo

期刊

剖宫产手术椎管内麻醉麻醉后低血压危险因素分析

PRP治疗对慢性难愈合创面患者创面恢复的影响

目的探讨富血小板血浆(PRP)治疗对慢性难愈合创面患者创面恢复的影响.方法选取2019年7月-2021年2月达州市某医院诊治的86例慢性难愈合创面患者为研究对象,根据随机双色球分组法将患者分为对照组和研究组,每组43例.对照组患者行常规换药处理,研究组患者行PRP治疗.比较2组患者住院时间、创面完全愈合率,以及治疗90 d时的创面长度、宽度和深度.结果治疗前,2组患者的创面大小(长度、宽度和深度)比较,差异均无统计学意义(P＞0.05).治疗90 d时,研究组患者的创面大小(长度、宽度和深度)均明显

期刊

富血小板血浆慢性难愈合创面创面恢复完全愈合

多领域跨媒体科技大数据高效检索查询研究

经过学者和科研人员的不懈努力以及信息化技术的不断发展和普及,互联网上迅速积累了海量的科技大数据。不同于互联网上爆发式增长的新闻、社交等信息,科技大数据有其独特的一面。科技数据主要以论文和学者信息等具有学术风格的资源为主体构成,其数量庞大但数据的冗余信息少,具有专业性强但不同领域间差异性大的特点。在对科技资源进行检索查询时,一方面由于科技大数据的独特数据特性导致了传统的检索算法难以满足学者用户的需求

学位

科技大数据跨媒体语义学习检索查询

基于恶意代码基因的攻击组织特征提取方法研究

与本文相关的学术论文