论文部分内容阅读
近年来,我国互联网行业发展迅速。原来只存在于现实世界的许多事物被不断地搬上互联网,比如电子商务、网络社交、互联网金融等。人们的生活已经越来越离不开互联网,其已经成为人们生活的一部分。但在互联网不断融入人们生活的同时,不法分子也大量渗入进来。他们利用恶意软件窃取用户帐户密码、窥探隐私、发送垃圾邮件等,从而获取利益或者破坏正常的互联网环境,这严重侵害了普通用户的利益。对恶意软件进行准确识别对于保护普通用户的利益至关重要。但是国内主流的杀毒软件仍然采用特征码识别、启发式搜索等恶意软件识别技术。基于机器学习的恶意识别方法还没有得到广泛的研究与使用。故本文主要研究基于机器学习的恶意软件识别技术。本文主要以windows可执行文件为例研究恶意软件的识别,主要工作如下:1.使用静态分析技术与动态分析技术进行软件样本的特征的提取,利用提取到的信息构建了包括PE文件头特征、可读字符串特征、关键行为特征、API调用次数特征、API调用时间序列、网络特征等6类特征,以全面刻画软件样本。2.提出基于XGBoost的多特征群模型融合算法进行恶意软件的识别,算法训练了多个分类模型,相当于训练了多个精通不同领域的恶意软件识别专家,每个分类模型使用一个或多个特征群的特征进行模型的训练。然后综合他们的识别结果得出最终的识别结果。实验表明其有较高的恶意软件识别效果,在本文收集的数据集上正确率为97.6%,召回率为97.1%,准确率为96.7%,高于传统的分类算法。应用该融合算法进行恶意软件识别为本文的主要贡献和创新点之一。3.构建基于LSTM的深度神经网络提取软件样本API调用时间序列的高层抽象特征。这同时本文借鉴深度残差网络的思想使用包括API时间序列高层抽象特征在内的6类恶意软件特征训练带shortcut连接的深度神经网络进行恶意软件的识别,实验发现其正确率为98.1%,召回率为97.9%,准确率为97.1%,能够对恶意软件进行更为准确的识别。该识别方法为本文另一个主要贡献和创新点。