基于机器学习的模糊测试种子输入优化研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xieyuanming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机行业的不断发展,软件漏洞问题也日益严重。模糊测试作为漏洞挖掘常用的方法,被用来检测各种软件以及应用程序中是否存在漏洞。然而模糊测试对于输入格式的敏感性低,导致生成的大量种子无法通过格式检查。因此,对模糊测试种子输入的内部语法知识的探索并据此生成更高质量的种子是一项有意义的研究。近年来,随着机器学习技术的不断发展,该项技术在众多领域的任务中都取得了相应的成功,所以将机器学习技术应用到模糊测试的改进上具有很好的研究前景。本文作者在进行相关研究的过程中发现,目前已经有研究人员开始将机器学习技术应用在模糊测试的改进上并取得了不错的效果,但是这些研究大多只作用于简单格式的种子,对于上下文相关的复杂格式种子例如PDF格式文件,现有的工作要么无法作用于复杂格式文件,要么只是在原有复杂格式种子文件上做小量的修改,而无法生成一个完整的全新种子文件集合。所以他们的工作所生成的种子对模糊测试效果的提升是有限的。于是本文研究使用机器学习模型生成复杂格式的种子,并提升模糊测试的效果。本文的主要创新点有:1.本文提出了一个基于机器学习的模糊测试种子输入优化方案来学习并生成新的PDF格式种子文件,并对相关工作中使用的机器学习模型进行选择和评估,最终确定Transformer模型作为本文的种子生成模型,这是Transformer模型首次应用于复杂格式种子生成任务。该框架分为PDF对象解析器,PDF对象生成器,PDF封装器三个部分,分别完成了对PDF语法规则的解析,依据语法规则生成新的PDF对象,以及将生成的对象封装成完整PDF种子文件。2.本文还提出了两种采样算法:Sample采样算法和SampleFunction采样算法来对学习的分布进行采样,用于增加本文框架生成种子的多样性,在确保obj对象序列依据概率分布进行预测的同时,采样部分小概率的结果以便生成特殊的序列,解决了目前相关工作中生成种子存在较多重复这一问题。最后在实验中,我们根据三项评估指标选出了最优模型Transformer模型,并结合本文框架生成了新的PDF种子。生成种子的初始覆盖率比原始种子高了0.47%,经过24小时模糊测试之后覆盖的路径数比原始种子多了 24.03%,并且引发了 23个crash,而原始种子没有引发任何崩溃。这些实验结果证明了本文框架生成的种子质量更高,验证了框架的先进性。
其他文献
背景龋病是微生物发酵游离糖产生的酸性副产物对牙齿硬组织造成局部破坏的结果,其相关微生物一直是研究热点。唾液和龈上菌斑是口腔微生物研究的常用样本。但唾液能否代替龈
本文以“青霉素过敏试验”一节内容为例,从教学内容分析、学情分析、教学过程、教学反思等环节介绍在中职护理专业《基础护理学》教学中运用建构主义理论进行的教学改革。
全日制普通高中教科书(必修)数学第二册上第96页习题4:△ABC的两个顶点的坐标是(-6,0)、(6,0),过AC、BC所在直线的斜率之积是-4/9,求顶点C的轨迹方程;第108页习题1:△ABC一边
<正>目前,很多学校把高三数学复习分为三轮,一轮重基础,二轮抓重点,三轮搞模拟.其中,第二轮复习通常是在第一轮纵向顺序复习的基础上,以专题的形式进行横向扫描,深化提高,以
公共艺术中的"叙事性设计"就是通过叙事这一方式来达到以形达意的设计目的。中国城市地铁建设正在如火如荼地展开,伴随着这种高潮,地铁空间的公共艺术作品也受到到了人们的广
关于唐宋拍实质的争论已久矣。一方面由于流传下来的古谱很少,尤其是节拍方面的标点很不明确,形成解释上的分歧。另一方面大都文献资料理论一鳞半爪、过于简略,引起诸多猜测
作为一家与新中国同龄的中央综合大报,工人日报已有70年的历史,其《社会周刊》创立至今也有近二十年。因其他新闻版当天不出版,也被称为工人日报周日刊或星期刊,是相对完整的
对非物质文化遗产进行旅游开发是使其得到传承、保护、发展的一个重要手段。通过对非物质文化遗产旅游开发中存在的开发度、活态性、原真性、资金、立法与管理、传承人、社区
草地退化已严重影响青藏高原高寒牧区畜牧业的发展,施肥是改良轻度退化草地的常用措施。2011—2012年,本研究以贵南县轻度退化草地为研究对象,2011年施加不同氮肥量(0,60,105
1937年7月7日,抗日战争全面爆发后,国共两党就停止内战、共同抗日进行谈判。9月6日,根据达成的协议,中共中央将原陕甘宁革命根据地的苏维埃政府更名改制为陕甘宁边区政府。10