基于知识图谱嵌入的恶意代码检测方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ni0ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前恶意代码检测方法的研究主要集中在特征表示上,如恶意代码的API调用序列、程序控制流图等,这些方法虽然取得了一定的效果,但可读性和可解释性较差,不利于人们理解恶意代码的行为。本文通过构建恶意代码知识图谱的方法提高恶意代码检测的效果和可解释性,知识图谱是一种由实体和关系组成的知识库,具有形式简洁、可解释性强等特点,经过近几年的快速发展,知识图谱已经运用到了各行各业中,如搜索引擎、推荐系统、智能问答系统等。在恶意代码检测领域,由于知识图谱是由离散的三元组构成的,不能直接运用到恶意代码家族检测等下游任务中,这些任务要求数据以向量的形式作为输入。为了把知识图谱中的实体和关系表示为向量,研究人员提出了知识图谱嵌入技术,但传统的知识图谱嵌入模型只考虑单一的三元组,无法获取知识图谱中图的结构信息,导致模型获得的嵌入向量质量不高。为了获取知识图谱中图的结构信息,使知识图谱更好地运用于恶意代码检测,本文提出了一种结合平移距离模型和图神经网络的新型知识图谱嵌入模型Rotat SAGE。利用图神经网络,Rotat SAGE可以学习到知识图谱中图的结构信息,从而丰富学习到的恶意代码知识图谱嵌入的表达能力。虽然Rotat SAGE可以学习到图的结构信息,但并不区分中心节点的邻居的重要性,而在实际的恶意代码知识图谱中不同的邻居对中心节点的贡献是不一样的。为了区分中心节点的邻居的重要性,本文结合注意力机制提出了第二个知识图谱嵌入模型Rotat GAT。在链接预测实验中,本文提出的Rotat SAGE和Rotat GAT模型都取得了较好的实验结果,表明在传统的知识图谱嵌入模型上引入图神经网络是有效的。本文通过定义恶意代码知识图谱中的实体和关系的具体内容,构建了恶意代码知识图谱,并利用Rotat SAGE和Rotat GAT模型获得恶意代码知识图谱的向量表示,将得到的嵌入向量分别运用于恶意代码家族聚类和恶意代码家族分类两个任务。在恶意代码家族聚类任务中,利用轮廓系数等指标评估嵌入向量的质量,并进行可视化,分析嵌入向量的分布情况。在恶意代码家族分类任务中,本文使用了分类任务中常用的指标评估嵌入向量的区分度,实验结果表明本文提出的方法具有较好的类别区分能力。
其他文献
肝细胞癌(Hepatocellular carcinoma,HCC)是全球最常见的肿瘤之一。2020年国际癌症研究机构(International Agency for Research on Cancer,IARC)的数据显示,我国肝癌的发病率在所有癌症中排第五位,死亡率排第二位。目前,手术以及放化疗是治疗肝癌的主要方法,然而术后的高复发率和肿瘤的转移严重影响患者的治疗效果、预后以及生存期。而且
学位
中风仍然是全球卫生负担,约有1370万人患有中风及其并发症,如运动功能下降和神经行为变化,中风可分为缺血性中风和出血性中风,后者则不太常见。缺血性中风由脑动脉内形成的血块引起,可导致脑梗死和神经缺陷。虽然再灌注可以增加缺血区的血液供应,但会促进氧化应激和炎症的发生,导致神经元细胞进一步恶化死亡,这种现象被称为缺血/再灌注损伤(Ischemia/Reperfusion,I/R)。已有充分证据证明,炎
学位
背景脑肠轴是肠与中枢神经系统之间的双向连接通路。肠道健康和相关的肠道微生物群稳态不仅影响胃肠道环境,还影响大脑功能。然而,肠功能障碍致脑损伤加重的机制尚不清楚。缺血性脑中风是致死致残的主要原因。因此,探索缺血性脑中风的内在神经保护策略就显得尤为重要。硫化氢(hydrogen sulfide,H2S)是第三种气态分子,H2S一方面参与心脑血管系统的生理过程,另一方面,H2S在病理状态下在中枢神经系统
学位
目的:本研究旨在探究牡荆素对庆大霉素诱导的内耳毛细胞损伤的保护作用机制,为预防和治疗氨基糖苷类抗生素的耳毒性提供新的靶点和理论依据。方法:在体实验选用C57小鼠,腹腔注射庆大霉素与呋塞米联合给药10天,建立小鼠药物耳毒性模型;体外实验采用庆大霉素10mM处理HEI-OC1细胞24小时进行造模。通过ABR测试检测小鼠的听力阈值变化情况;鬼笔环肽染色检测小鼠内耳毛细胞缺失情况;透射电镜(TEM)检测内
学位
次级代谢物是通过复杂的次生代谢途径合成的各种结构复杂的化合物,包括维生素、激素、抗生素、生物碱以及毒素等,这些化合物与人们的生活息息相关。因此,对次级代谢物进行开发和改造,研究相关的合成途径以及合成过程中重要的酶催化机制,是非常有意义的。酶的功能和结构是密切相关的,酶的结构研究是揭示其功能的基础。本论文通过解析两种次级代谢物合成途径中关键酶的晶体结构,从原子水平上揭示了其具体的催化机制,为杀黑星菌
学位
结直肠癌(colorectal cancer,CRC)是最常见的癌症之一,据估计,2020年CRC增加了近200万的新发病例和近100万的死亡病例,约占新发癌症病例和癌症死亡人数的十分之一。由于可用于CRC临床筛查的靶点较少,多数患者确诊时已局部进展或发生转移,且治疗手段存在较多的局限性,治疗效果不佳,寻找CRC诊断与治疗的新靶点具有重要价值与意义。为了进一步研究CRC中潜在的分子治疗靶点,为CR
学位
近些年来,由于使用机器学习技术而聚合用户数据所造成的隐私数据泄露事件频发,而数据安全与隐私保护法律也日益严格,通过各种隐私保护工具防范机器学习过程中各类隐私泄露风险成为研究热点。同态加密技术允许在密文状态下执行特定的代数运算获得结果密文,将其解密后即可获得对明文进行相同代数运算的结果,非常适合云计算场景下的隐私保护机器学习方案。2017年Cheon等人提出的CKKS同态加密方案支持加密固定精度的浮
学位
事件是世界的一种重要客观信息。随着信息化时代数据爆发式增长,如何在海量文本信息中自动挖掘并理解关键事件与知识等结构化信息对人工智能技术发展至关重要。开放域事件作为不限定事件类别的文本对象,相比于特定域事件来说,拥有结构形式更简单、信息特征更通用等特点。开放域事件的表示学习,对事件相似度评估、舆情归因和脚本事件预测等任务具有重要基础性作用。目前尚未有针对中文开放域事件的表示学习研究,相应地缺失中文开
学位
随着移动互联网的迅猛发展,在线社交网络成为人们沟通交流的重要工具,使病毒式营销得到广阔的应用。病毒式营销即为社交网络中的种子用户免费提供产品,这些用户将产品推销给他们的粉丝以及粉丝的粉丝。关于产品的信息能病毒似的一层层扩散,产生大规模的营销效果,企业也因此可以获得巨大的收益。当前的研究工作大多集中于一种产品在一个批次中病毒式营销。然而,在某些场景下,企业需要对多种不同型号的产品进行多批次病毒式营销
学位
近年来深度学习快速发展,在学术界和工业界成为研究和应用的热门领域。随着深度学习网络参数量的增大,对训练数据的需求也越来越高。然而在一些实际应用领域中,数据采集难、标注成本高和隐私政策等因素的限制,使得传统深度学习方法需要尽可能地减少对数据的依赖。因此少样本学习成为了当前的学术热点,该方法的目标是只利用少量的训练数据样本来获得较好的学习效果。少样本学习可以分为基于优化学习和基于度量学习两个视角。本文
学位