基于深度学习的恶意代码可视化检测及分类研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:n0131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了对恶意代码进行深层次的分析以确定其功能属性,研究人员探索了多种检测和识别恶意代码的技术和方法,如静态代码反汇编和动态代码执行,但都存在应用上的局限性。由于静态分析是通过检查程序的控制流来识别内部机制,只能在恶意代码不使用混淆技术时才能获得较全面的信息。而动态分析是在虚拟环境中运行恶意代码,通过观察到的行为刻画其属性,只能在虚拟环境满足触发条件时才能观测到恶意行为。为了克服现有分析技术的缺点,提高安全分析人员的工作效率,帮助他们从海量的可疑数据中快速地提取信息特征来分析、识别并分类恶意文件,迫切需要更加智能的数据分析方法。恶意代码可视化研究就是在上述背景下形成的新研究方向,它通过可视化界面进行科学的推理,以视觉分析派生出可视化对象的新属性,丰富了分析人员的认知。近年来,这一研究方向取得了很多有意义的研究成果。其中较为有效的方法就是将可疑文件用图形图像的数据格式呈现出来,利用视觉模式来表达其隐含的特征及数据差异。该方法可以解决恶意代码研究中的两类问题——恶意代码检测和恶意代码分类,也就是对可疑文件进行分析,确定是否含有恶意内容,一旦显示阳性即被分类机制按其行为及属性特征分配到相应的恶意代码族。但在实际应用中,尚存很多亟待解决的问题限制了恶意代码的可视化分析。因此,本文重点对以下问题进行研究:不能定位字符信息进行交互分析、不能抵御Zip Bomb攻击、不能防范恶意代码通过改变全局图像特征来规避检查的企图、不能直观地反映文件内部是否存在压缩或加密的情况,并对扩展性不强、不适用于检测和分类大规模样本的问题进行了有益的探索。针对以上问题,本文运用人工智能、深度学习、卷积神经网络等相关理论知识,设计了恶意代码可视化分析、检测与分类模型。通过可视化的方式来展现恶意代码的属性特征,从视觉分析上掌握恶意代码行为变化的规律,提高了恶意代码的识别准确率,体现了恶意代码属性特征的直观性和可操作性。本文的主要研究内容概括如下:1、从分析字节本身特征的角度,提出了两种基于字节序列N元语法特征的恶意代码可视化分析方法。方法一(SFCM),将恶意文件的二进制字节序列,即一元语法(1-gram)特征以空间填充曲线的形式表示,并用不同颜色区分可打印字符和非可见字符,解决了现有的灰度图方法不能定位字符信息进行交互分析的问题,避免了恶意代码数据量过大而引发Zip Bomb攻击的风险。方法二(MDP),将字节序列的二元语法(2-gram)特征及其统计信息可视化为图像中像素点的坐标及亮度显示,解决了恶意软件通过改变代码段位置或增加冗余信息而造成底层字节特征变化的问题。将这两种方法应用于微软公开的恶意样本集(BIG 2015|Kaggle),获得的可视化结果经深度卷积网络学习后使用支持向量机分类,分别取得98.36%和99.08%的分类正确率。与此同时,应用这两种方法分别对该恶意样本集和Windows操作系统中正常的可执行文件可视化后进行识别检测,分别取得99.21%和98.74%的恶意代码识别率。另外,所提方法中使用的识别机制还提升了现有灰度图方法的分类正确率及识别准确率。2、从分析字节所反映信息的角度,提出了一种基于局部熵的恶意代码可视化分析方法。该方法将恶意文件分成相同大小的字节块并依次计算熵值,经归一化处理形成固定长度的局部熵值序列,使用不同颜色区分熵值高低,随后扩展熵值范围以增强视觉表现力,最后借助空间填充曲线的局部自相似性实现构图,解决了一般恶意代码分析方法不能直观反映样本是否使用混淆技术的问题,以及现有可视化方法不适用于检测、分类大规模样本的问题。采用该方法可视化上述恶意样本集,经相同的深度融合网络结构学习特征并分类,获得了99.10%的最优分类正确率。该方进行识别检测时,获得了99.48%的最优识别率。另外,该方法采用的深度融合网络还将现有熵直方图方法的分类正确率由65.32%提高到98.93%,将识别准确率从84.53%提高到99.43%。3、从分析字节所构成语义的角度,提出了一种基于操作码频率的恶意代码可视化分析方法。该方法在静态分析反汇编的基础上,获取机器指令中的操作码序列,使用设计的色谱区分常见和罕见的操作码指令,并依据对应颜色向量在RGB空间中的顺序来重排操作码的位置,以此实现关于操作码频率的映射,解决了现有方法视觉区分度不强、分类精准度不高的问题。将该方法应用于同一恶意样本集的ASM格式(反汇编后的恶意样本文件),可视化结果经深度学习后,取得了98.50%的分类正确率。基于大量的实验结果,本文对给出的创新方法从以下三个方面进行了评估:1)在视觉表现方面,所提方法均能使同族恶意代码生成的图像相似,而异族代码生成的图像差异明显;2)在恶意代码检测、分类方面,所提方法都使用了迁移学习的思想(即运用已有知识对不同但相关领域的问题进行求解的学习方法),充分地利用了卷积神经网络在图像分类上取得的有益成果,使所设计的模型在恶意代码检测、分类验证中的效果均优于同类型的可视化分析方法;3)在分析效率方面,所提方法构建了研究人员与恶意文件之间直观的视觉通信,降低了对分析人员专业水平和相关经验的要求,并且所提方法生成的图像均经过规范化处理、能以自动执行的方式实现,极大地提高了工作效率。特别要指出的是,前两种创新方法既无需代码反汇编的静态分析,也无需代码执行的动态分析,对使用了混淆技术的恶意代码有很好的适应性。最后,本文对所做工作进行了总结,并对该项研究的未来发展方向进行了讨论。
其他文献
纺织印染、皮革、造纸和塑料等工业每年都产生大量染料废水,由于许多染料具有极强的毒性,并能够致畸变、致癌、致突变,严重危害着人类的生命安全和生态环境的良性发展。因此,
不可压缩热传导-对流方程是流体力学中一个非常重要的方程组,它足由粘性不可压缩流和温度场强耦合的非线性动力系统.因为小可压缩热传导对流方程组的非线性、速度和压力的强
第一部分:长链非编码RNA SNHG3在肝细胞肝癌中作用机制的研究研究背景肝癌由于每年约84万新确诊病例和74万死亡病例成为肿瘤致死的主要元凶之一,其中肝细胞肝癌(Hepatocellul
目的:特发性肺动脉高压(IPAH)是肺动脉高压中无明显病因,以肺血管阻力进行性升高为主要特征的恶性肺血管疾病。肺血管压力升高导致右心室重构,从而导致不良结局。1980年期全
改革开放四十年来,中国共产党对社会主义公平正义的重要地位、发展规律及其实现方式等的认识不断深化,在理论形态上形成了比较系统的中国特色社会主义公正观。这一重大理论成
人口和产业在城市的集聚,增加了污染物的排放,改变了污染物的扩散条件,导致城市空气污染严重,是城市可持续发展面临的重大挑战之一。其中细颗粒物(PM2.5)和臭氧(O3)是城市中
我国已成为世界上最大的能源生产国和消费国,为了保证持续的能源供应和能源安全,国家发改委、国家能源局制定了重点发展“分布式能源、电力储能、工业节能、建筑节能、交通节
著作权制度所要达到的目标表现为作品数量的绝对增长和使用范围的不断扩大,但这一目标的实现受到两个方面的制约:一是作品的公共性会导致严重的外部经济效应,引发市场失灵,使
目的:观察半夏泻心汤对2型糖尿病(Type 2 diabetes mellitus,T2DM)大鼠氧化应激反应及核转录因子-κB(Nuclear transcription factor-κB,NF-κB)、诱生型一氧化氮合酶(Induc
挥发性有机物(VOCs)是对流层臭氧和二次有机气溶胶的关键前体物,在大气化学过程中扮演着极其重要的角色。对大气VOCs源汇机制的分析研究有助于深入理解我国复合大气污染的形成