论文部分内容阅读
程序分析是程序优化、程序安全缺陷检测以及恶意代码检测领域的重要技术手段。程序分析分为静态程序分析、动态程序分析以及混合程序分析三大类。动态符号执行是混合程序分析中的典型方法。近年来兴起的代码混淆等软件保护技术给动态符号执行方法带来了一些挑战。具体问题如下:1.代码混淆加入了大量冗余过程间调用,现有动态符号执行对过程间调用存在冗余测试,从而导致动态符号执行分析混淆程序时效率低下。2.混淆程序中存在读取系统环境参数的外部函数,现有动态符号执行方法通过实际值替代对外部函数的分析,无法准确分析外部函数行为导致路径覆盖率下降。3.相较于正常程序,混淆程序中存在更多单向外部函数,如哈希函数等。单向函数的特定输入很难通过算法求解,从而破坏了动态符号执行新输入生成过程,降低了路径覆盖率。针对现有动态符号执行中存在的这些问题,本文对动态符号执行以及代码混淆技术的特点进行了深入研究,从动态符号执行的过程间调用处理、外部函数的处理、混淆程序不可达路径分析以及动态模拟执行环境改善等几个方面入手进行了改进,实验证明改进后的动态符号执行有效地解决了以上问题。本文的主要研究贡献和创新性成果如下:首先,解决了动态符号执行方法中反复的过程间调用展开导致的路径爆炸问题。DART等现有动态符号执行方法将子函数调用直接在函数内部展开为当前函数的一部分来实现分析,并作递归处理。这种情况下,在不同的执行路径上的同一过程间调用将被重复分析多次,造成冗余分析。更严重的是嵌套函数调用展开后会使得需要执行的路径数量急剧增长,最终发生路径爆炸。混淆程序中存在大量没有实际功能的混淆路径,路径爆炸带来的效率损失使得现有动态符号执行方法不能在有效时间内完成对混淆程序的分析。本文提出的利用函数摘要来处理过程间调用,能够避免对同一过程间调用的重复分析并缓解路径爆炸问题。采用了函数摘要方法的动态符号执行方法将过程间调用分为已摘要和未摘要两种情况分别处理:分析过程在已摘要的过程间调用时直接带入函数摘要结果,未摘要的过程间调用分析则进行展开,递归地进行动态符号执行,并记录该过程间调用的函数摘要以便下次调用时使用。实验结果表明,本文提出的基于函数摘要的动态符号执行能够显著地缓解过程间调用带来的路径爆炸问题,确保动态符号执行在有效时间内完成对混淆程序的分析。其次,本文分析了以时间相关性函数为代表的外部函数对动态符号执行方法路径覆盖率的影响,并提出将外部函数的隐式输入符号化分析来提升路径覆盖率。时间相关性函数的输出会随着时间不同而变化,恶意代码和软件保护技术可以利用时间相关性函数来实现定时爆发、授权检测等功能。以时间相关性函数为代表的这类外部函数的输出能够控制影响程序执行流程,代码混淆技术利用这类外部函数来隐藏程序行为。同时动态符号执行方法高路径覆盖率的前提是:利用某路径约束条件表达式生成相应的输入后,该输入能够驱动程序执行路径约束条件表达式对应的路径。然而外部函数的输出不可控,即使使用同样的输入驱动外部函数输出也会不同,无法确保程序执行路径为路径约束条件表达式对应的路径。现有动态符号执行方法无法确保每次都能够执行新的程序路径,从而影响整个测试的路径覆盖率。为了解决该问题,本文在动态符号执行过程中加入了外部函数的检测,提取外部函数的隐式输入并进行约束求解,最终通过模拟环境驱使使得外部函数的输出满足指定的路径约束条件表达式。隐式动态符号执行提升了动态符号执行对包含外部函数的混淆程序的路径覆盖率。第三,本文运用改进后的动态符号执行对混淆程序进行不可达路径分析,实现了混淆路径执行路径树的准确探测。混淆程序相较于普通程序包含大量的不可达路径,并且不透明谓词等控制流混淆方法导致控制流图比较复杂,单纯静态分析方法无法有效地对混淆程序进行不可达路径分析。本文采用改进后的隐式动态符号执行对混淆程序进行分析。当动态符号执行方法探测到无法约束求解的分支条件时,隐式动态符号执行会利用静态程序分析手段对程序指令进行分析,并将当前动态符号执行探测的路径树与静态程序分析得到的路径树相比较,最终通过分片执行疑似混淆路径集来判定路径可达性。通过隐式动态符号执行方法能够探测出混淆程序更多的实际执行路径,从而对混淆程序的程序行为、系统调用等关键信息进行分析。最后,本文改进了软件模拟器,使其能够检测外部调用并修改客户操作系统环境参数,满足外部调用分析的要求并实现了外部资源的自动加载和分析。此外,运行动态符号执行实现了混淆后的多态恶意代码分析,通过关键系统API的调用顺序和频率作为恶意代码特征,建立行为特征库。最后的原型实验证明,该方案能够有效地对混淆后的多态恶意代码进行分类并进行检测。