论文部分内容阅读
随着互联网技术的发展及云计算、云存储等服务框架的快速应用,互联网的安全面临着严峻的挑战。借助灵活多样的多态机制,多态蠕虫在每次感染主机时能改变自身表现特征,从而有效避开传统入侵检测系统的检测。因此,如何准确且快速提取多态蠕虫特征对防御其快速传播至关重要。本文研究内容主要包括以下三个方面:(1)提出了一种基于改进词频-逆文档频率(TF-IDF)的多态蠕虫特征自动提取算法。首先利用特征哈希方法对不同位置子串赋予不同的位置权重,并将高维子串向量压缩成低维向量;其次,引入校验值对传统IDF算法进行修正,减小稀有子串的权重影响;最后,按权值排序得到子串序列,生成蠕虫特征序列。结果表明,该算法在噪声干扰下能够快速且准确地提取出所有蠕虫的特征,优于同类算法。(2)提出了一种基于Gram-RBM的多态蠕虫特征提取模型,可自动生成多态蠕虫特征序列且具有良好的可扩展性。该模型首先在改进平滑N-gram算法上给出了三个不同元数下的两种平滑改进方法选取策略。其次,根据改进TF-IDF算法将改进平滑N-gram生成的特征序列进行特征转换,之后使用Gaussian-Bernoulli RBM对高维度特征序列进一步降维。结果表明,该模型能够在消耗较少计算机资源前提下更快速准确地提取出多种类多态蠕虫行为特征。(3)提出了一种基于迁移学习的多任务神经网络特征提取模型,利用MoE(Mixture of Experts)神经网络对Gaussian-Bernoulli RBM所保留的部分训练参数进行迁移并训练。首先构建MoE多任务神经网络模型,确定任务分发流程;其次,利用迁移学习重用已有的Gram-RBM模型并与MoE神经网络对接,进而自动提取出多种类多态蠕虫特征。结果表明,所提模型不仅可以提取出多态蠕虫特征,还能够对其他恶意软件进行家族分类,且分类结果优于同类方法。同时也验证了迁移学习不仅能够将已有模型数据迁移到新的模型确保高效的生成多态蠕虫特征,且迁移学习为多模型的融合提供了新的思路。