基于监督学习的代码混淆有效性评估模型研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:DownLoad0005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件破解技术的发展,人们对应用软件的安全问题越来越重视。代码混淆作为一种重要的代码保护技术,已经广泛应用于软件保护领域。为了确保混淆结果的有效性,对代码混淆进行评估已经成为代码混淆技术应用过程中不可或缺的环节。代码混淆评估一般从强度、弹性、开销和隐蔽性4个方面测量。目前代码混淆评估方法存在评估指标不全面、大样本评估不适应以及评估结果不准确等问题,使得代码混淆评估研究有待提高。在现有的研究基础上,本文提出一种基于监督学习的代码混淆有效性评估模型,并对该模型展开以下工作:针对目前代码混淆评估方法存在评估指标不全面的问题,本文对代码混淆的评估特征提取方面进行了以下改进。现有的评估模型通常采用程序复杂度作为代码混淆强度测量。为了使强度测量更加全面,本文增加了抽象语法树(AST)特征和字节码(BC)特征,并给出提取这两类特征的算法。此外,由于弹性测量工作难度大,现有的评估模型往往缺少了对弹性的评估工作。本文通过反混淆技术完善弹性测量,提出两个新的评估特征,分别是混淆识别率(Obfuscation recognition rate)和反混淆率(De-obfuscation rate),同时参照强度测量,增加了与反混淆代码相关的AST特征和BC特征。对于开销方面的测量,计算了程序编译时间、运行时间和时间复杂度,以及测量了堆、栈等内存空间。对于隐蔽性方面的测量,除了现有的控制流图相似度等传统的测量方法,本文提出使用AST、BC、Token等相似度计算方法,丰富了与隐蔽性相关的评估工作。针对现有的混淆评估模型由于不具备学习能力,导致大样本评估不适应以及评估结果不准确的问题,本文引入监督学习以改进代码混淆评估。对已知混淆评估结果的样本进行自动学习,即通过支持向量机、随机森林、人工神经网络等学习算法,训练出可用于评估未知样本的分类模型。相比于其他评估模型,本模型由于预先学习了一部分样本,在处理大量未知样本时仍能保持较高的准确率。本文从以下三个方面阐述了该评估模型的优势。首先对评估模型进行性能分析实验,在二分类的情况下,本模型的准确率超过99%,在五分类的情况下,准确率达到95%以上。与现有的其他模型作对比,本模型对大样本评估具有较高的准确率。其次,通过若干独立的公开数据集进行交叉检验,验证了本模型具有较强的鲁棒性和适应性。最后,通过测量模型各个阶段的耗时,验证了本模型能够在合理的时间范围内具备完成大批量代码混淆评估工作的能力。
其他文献
路面耦合式(Through-the-road,TTR)混合动力车辆构型是一种在路面上实现动力耦合的混合动力结构类型。通过给发动机增加BSG电机及给非驱动轴增加电驱动桥,即可将传统燃油车辆改造成为TTR构型混合动力车辆。该构型车辆可实现多种驱动模式,配合合理的能量管理策略,可以充分协调车辆动力性及经济性要求,因此具有广阔的发展前景。本文以该构型混合动力车辆为研究对象,根据性能要求进行动力参数匹配,提
如何在地膜减量条件下维持旱地玉米生产力,并有助于土壤培肥是目前旱地农业生态系统管理中的关键问题。土壤微生物在农业生态系统中提供了一系列重要的生态服务,尤其是土壤有
在家庭环境下,让机器人具备多种操作技能可以完成更多复杂的家政任务,为用户提供更好的服务体验。已有技能学习方法需要大量的训练数据,对硬件要求高,特别是不能利用已经学到
森林火灾的频发威胁着林火消防员的生命安全。林火消防员在扑火过程中由于高温休克、吸入毒气昏厥、失足跌落受伤的事情时有发生。为了提高对林火消防员生命安全的保障,一种
随着我国高铁事业的迅猛发展,中型铁路站房在国内不断涌现。本文以某中型铁路站房公共区为研究对象,利用客流模拟软件,得到进站通道所需尺寸,进而确定基于反恐安检需求的公共区平面结构;进一步优化公共区布局,并对其客流区域环境特性及舒适性进行模拟分析。本文通过文献及现场调研,获取了车站的进站流程、服务设施尺寸、服务能力、实际运行情况等重要信息。采用客流模拟软件建立了客流模拟模型,并根据调研数据验证模型的准确
钢筋混凝土结构的耐久性问题是土木工程领域关注的重点问题之一。耐久性不足会导致混凝土结构在没有达到使用年限时就提前失效,对这些失效混凝土结构的维修和重建给我国经济带来巨大损失,混凝土结构的耐久性问题是一个当前亟需解决且意义重大的问题。钢筋锈蚀是导致混凝土结构耐久性失效的主要原因。钢筋锈蚀会导致混凝土保护层开裂、钢筋自身力学性能劣化,同时钢筋与混凝土之间的黏结力也会下降,最终降低混凝土结构耐久性,缩短
细胞是生命体最基本的结构和功能单元,对其形态结构等信息的识别分析在生命科学、临床医学等领域具有重要的意义。大多数细胞无色透明,属于相位物体,传统显微镜难以对其成像
随着信息技术的飞速发展,海量的文本数据不断增长。与数值数据不同,文本数据的处理更为复杂和困难。容错粗糙集模型是对经典的粗糙集的扩展,把论域基于等价关系形成的划分扩
情感识别是计算机视觉、模式识别等领域的研究热点,并随着人工智能和深度学习技术的发展,受到了广泛研究者的关注。表述情感的方式各种各样,其中语音和表情是两种最直接、最
并发控制是数据库系统提供的一种机制,用于支持多个事务并发执行,同时保证事务之间的隔离性。并发控制算法是数据库系统性能的关键。然而,不同的并发控制算法有不同的优点和