论文部分内容阅读
当前,层出不穷的恶意软件对计算机系统的安全构成了严重的威胁。恶意软件破坏计算机系统、执行非用户期望的操作、窃取机密或隐私的信息,为社会机构以及个人带来了巨大的经济损失。因此,研究恶意软件检测技术具有重要的意义和价值。当前,国内外研究者提出的基于机器学习的恶意软件检测模型大多属于监督学习模型,监督学习模型的性能依赖于大量的标注样本。获取大量的标注样本需要十分昂贵的人力成本,而通常大量的无标注样本可以很容易获得,但是监督学习的恶意软件检测模型无法有效地利用无标注样本。针对此情况,本论文研究并提出可以有效利用无标注样本来提高检测效果的半监督预训练恶意软件检测模型。卷积神经网络可以通过组合低抽象层次特征得到更高抽象层次的特征。因此,模型首先通过少量标注样本预训练一个卷积神经网络作为特征提取器,其次映射大量无标注样本到低维空间进行半监督聚类并将聚类结果作为无标注样本的伪标注,然后使用带伪标注的样本对特征提取器再次预训练,最后,针对目标任务监督训练,本论文提出了端到端模型和分离模型两种模型。端到端模型即为预训练过的卷积神经网络特征提取器添加SoftMax分类层后使用标注样本监督训练,分离模型即仅使用卷积神经网络提取特征,映射标注样本到低维空间后训练一个分类器。为进一步改进半监督预训练恶意软件检测模型,本论文将生成对抗网络引入到半监督预训练恶意软件检测模型,提出了基于生成对抗网络增强的半监督预训练恶意软件检测模型。此模型首先分离带标注数据集的正常样本和恶意样本,并分别训练不同的生成对抗网络。其次,从两个生成对抗网络采样对原数据集扩增,使用扩增后的带标注样本对卷积神经网络预训练。然后,本论文借鉴Stacking集成学习部分思想,将卷积神经网络和两个生成对抗网络的判定网络作为第一层的特征提取器,使用第一层的特征提取器映射原带标注样本到低维特征空间。最后,在低维特征空间训练第二层的分类器对恶意软件检测。本论文基于两份数据集对模型进行了测试实验。实验结果表明,本论文提出的两个模型可在少量标注样本监督训练下有效检测恶意软件,其中基于生成对抗网络增强的半监督预训练恶意软件检测模型各项评价指标更高和稳定性更好,在两份数据集上测试的精准率为98.6%和99.2%,召回率为99.2%和96.8%,准确率为98.4%和98%。