基于语义特征的二进制函数边界识别技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:i369731392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展,使得生活中的软件层出不穷,漏洞也会越来越多,一些重要的软件的漏洞被恶意使用后会给个人、企业甚至国家造成巨大的损失。由于一些可执行文件大多不开放源码,这就给漏洞的检测造成了困难,技术人员不得不借助逆向分析工具来进行分析。可执行文件可以被理解成由一个个函数组成的二进制文件,在进行反汇编或逆向分析的过程中,确定其中函数的边界就显得尤为重要。当前针对二进制函数边界识别技术的研究有限,大多都集中在二进制代码相似性匹配上。二进制函数边界识别技术主要通过函数签名等传统的方法实现,这些传统的方法又依赖于人工更新,需要建立数据库进行匹配,效率低下,更新并不及时。利用机器学习识别二进制函数边界的方法又大多集中在函数入口点的识别,常常会忽略函数结尾的识别。二进制函数主要位于可执行文件的.text节,本文从多个可执行二进制文件中获取二进制函数构建预训练数据集,通过函数表以滑动窗窗口的方式构建了二进制函数边界数据集。本文尝试用自然语言处理技术来解决二进制函数边界识别问题。为了使预训练模型能更好的学习到二进制函数的语义特征,我们收集了20多个开源项目,用编译器的不同版本分别编译生成不同版本的可执行文件,提取其中的二进制函数,尽可能地丰富数据集,使得预训练模型尽可能的学会其中语义特征。在表现最好的预训练模型上加上不同的网络结构如全连接层、CNN网络使其成为二进制函数边界识别模型,在多个数据集上训练模型识别函数边界,通过在5个开源项目上的测试发现,两个模型在该问题上都取得了不错得效果。
其他文献
图像超分辨率是计算机底层视觉和图像处理领域的一项基础任务。因为低分辨率图像和高分辨率图像构成一个一对多的映射,所以图像超分辨率任务本质上是一个不适定问题。近年来,借助深度卷积神经网络的强大表示能力,基于深度学习的图像超分辨率方法取得了巨大的突破,这些深度学习的方法主要通过不断加深或加宽网络以获得更好的性能,其参数量不可避免地成倍增加。然而,在实际应用中,设备的内存和算力是有限的,难以支持大型网络的
学位
实时流数据是大数据时代的一种重要的数据组织形式,人们希望自适应流计算系统能够以低延迟和高吞吐量及时处理动态变化的实时数据流。流应用程序的有效运行时重配置被认为是保证流处理系统性能的关键之一,现有的许多工作都试图通过在某一种重配置机制的支持下,通过从某一个角度或对某一个层次进行的重配置来构建一个自适应的弹性流计算系统,如调整算子的并行度,调整任务部署以及调整流分区。本文认为,这些问题是紧密耦合的,因
学位
粮食安全问题是关系国计民生的根本性问题,病虫害、自然灾害等对我国粮食产量有着巨大的影响。在应对这些灾害时,网上与之相关的信息虽然繁多,但是存在内容表达差异以及知识零散等问题,数据存储结构以及表示方式等也各不相同,处于一种相对混乱的状态,人们难以高效地利用好这些信息。近十年里,知识图谱技术发展迅速,其能有效地描述各类事物,以及提高搜索查询的速度与质量,因此利用知识图谱相关技术来整合农业领域相关的数据
学位
慢性代谢性疾病主要包括II型糖尿病、高尿酸血症和肥胖,因其高发病率、高死亡率和年轻化趋势,成为人类健康的重要威胁。以α-葡萄糖苷酶、α-淀粉酶、黄嘌呤氧化酶及胰脂肪酶为靶点,寻求安全、毒副作用小的天然活性物质是这几种慢性代谢性疾病防治领域的研究热点。紫草素是一种源自紫草的天然活性物质,具有抗炎、抗菌以及抗肿瘤等药用价值。探究紫草素与几种慢性代谢病相关酶的相互作用机理对扩大紫草素的应用范围以及防治I
学位
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)是一种由新型冠状病毒(Severe Acute Respiratory Syndrome Coronavirus 2,SARS-COV-2)引起的呼吸道传染病。冠状病毒可跨物种传播到包括人类在内的多种哺乳动物,严重威胁人类健康及公共卫生安全。因此,快速准确地预测冠状病毒宿主分类对于未来防控流行病具有重要意义。本
学位
考试是一种检验考生学习能力和选拔人才的方法,通过考试,可以了解考生对所学知识的把握程度,从而选拔合适的人才。考场作为考试的场所,需要有监考人员进行监督,来防止考生在考试时作弊。只有公平公正的考试环境,才能够检验出考生的真实水平。随着科技的发展,监考的手段也不断地现代化。传统的监考方式主要依靠人工监考,考试中心会在每个考场安排监考和巡考人员来维持考场秩序。通常由于考试集中在期末,规模较大,并且监考人
学位
化合物-蛋白质相互作用(CPI)预测是药物研发领域的一个重大课题。药物研发过程中,需要从大规模化合物中筛选出能与蛋白质亲和的样本,这一步用化学实验的方法比计算的方法消耗大得多。随着各种科学实验的不断进行产生了大量生物数据,通过计算机建模能够快速有效地利用这些数据对化合物进行筛选。因此提高化合物-蛋白质相互作用预测的准确率,可以缩小化合物的搜索空间,在药物研发过程中起着至关重要的作用。针对现有化合物
学位
随着物联网的发展,智能家居设备越来越普及,并且智能家居已经实现了以“物”影响“物”的方式来控制家居设备之间的交互,我们把这种方式称为事件驱动式编程,其中具有代表性的事件驱动式编程第三方平台是IFTTT。然而对于普通的新手用户来说,事件驱动式编程上手起来还是存在一定难度。同时,用户在智能家居环境下对设备的使用数据对科研工作者分析用户行为有重要意义。然而由于用户数据的安全性和不同厂商的数据壁垒,智能家
学位
肥胖是全球第五大死亡风险因素,发生发展的过程极其复杂,它是许多心血管疾病的前期体现。肥胖产生的炎症反应、产生的游离脂肪酸、脂肪组织中特异性表达的蛋白如PPARγ等、脂肪细胞因子ADPN、TNF-α等以及鞘磷脂类物质如神经酰胺等都与肥胖导致的胰岛素抵抗(Insulin Resistance,IR)关系密切。目前市售的减肥产品或药品副作用大、治疗效果有限,因此寻找效果好的天然无毒产物治疗肥胖并探究其可
学位
近年来,随着信息网络技术的普及与发展,网络中产生的数据量急速增长,其包含的信息也愈加丰富,利用信息网络的研究去指导人们的现实生活已成了一种必然趋势。链路预测作为信息网络的主要研究内容之一,其目的是预测信息网络中节点与节点之间产生链路的可能性。链路预测有着理论研究价值,在社交网络、生物医药、金融等领域有着广泛的应用。链路预测的核心问题是探究网络的演化规律和结构特性。尽管目前链路预测的方法众多,但是融
学位