论文部分内容阅读
随着计算机技术的发展和网络的普及,种类、数量繁多的计算机病毒,尤其是病毒的新变种和未知病毒,结构日益复杂、精巧,传播速度越来越快,其潜伏、破坏和感染能力也越来越强,这些对病毒检测技术提出了更高的技术要求。
传统的计算机反病毒方法是主要基于字节序列的搜索,提取字节序列作为病毒的特征,来检测出有相似行为的病毒程序。它们对于已知或者是出现过的病毒有着很高的识别率,但是对于没有出现过的未知病毒或者病毒的新变种缺乏快速而准确的识别能力。各种病毒技术应用多态或是变型的方式企图逃避基于特征的检测,常见的有插入冗余代码、代码位置调换、寄存器的重新组合、同义指令代换、加壳、加密等。病毒的制造者们,针对了传统病毒的扫描器,通过类似方法很轻易地改写自己的代码,躲避了基于传统特征的扫描。启发式的扫描器试图通过利用病毒代码更一般化的特点,诸如结构化或者行为化模式,来弥补这一缺陷。不过这个过程需要介入很多专家知识,而且建立出的模型常常在对于未知病毒的高识别率和较低的正常文件虚警率之间顾此失彼。
近年来,发现的绝大多数病毒都是之前病毒的变种,变型和多态病毒已经成为病毒发展的主流。传统的检测方法已经不能快速而准确地检测出这些已知病毒的新变种和未知病毒。研究并开发新的病毒检测方法成为了反病毒研究的重点。
生物免疫学的迅速发展使得部分免疫机理开始明确,这些为将生物免疫系统的原理通过类比应用到计算机安全领域提供了可能,并奠定了基础。不难看出,二者具有天然的联系。生物体的免疫系统具有强大的信息处理功能,能够识别“自体”和“异体”,具有分布式、不完美匹配、强化学习和记忆等特点,它的这些特征也正是计算机安全系统所需要的。本论文致力于研究基于免疫原理的计算机病毒检测方法,去解决原有的特征码检测法对于未知、新病毒识别效率低下的问题。
文章首先深入分析了病毒检测与人工免疫领域中前人工作的优缺点,这些研究工作涉及生物免疫机制、阴性选择算法、免疫浓度算法、病毒检测的现有模型等。之后,文章又将病毒检测中两个核心环节,即特征提取和分类器设计的机制进行了梳理。最后文章给出了四种模型,前两种模型改进了阴性选择算法中的诸多不足,后两种模型运用免疫浓度的思想进行病毒特征的构造,这些方法将计算机病毒检测和传统人工免疫模型的理论研究推进一步。通过在真实数据集上的实验,文章论证了提出模型的有效性,为病毒特征提取的相关难题提供了比较新颖的角度。
论文的主要贡献总结如下:
1、提出了基于改进型阴性选择算法的计算机病毒检测的两种模型在基于计算机代码指令协同作用的层次检测模型中,
·解决了阴性选择算法中无向导学习的问题,提出了两种利用文件属性趋向的特征提取方法,克服现有工作计算代价过大的缺点;
·采用符合病毒自身特点的非定长检测器;
·在样本个体中不固定个数的多特征并存,利用计算机病毒单个样本内代码之间的协同关系,增强了模型的自适应能力,提高了检测效果;
·建立了多层次匹配和整体决策的检测模型,提高了分类结果的准确率,严格控制了虚警率。
在带有惩罚因子的改进型阴性选择算法模型中,
·特征提取基于病毒行为的危险性,而不是传统阴性选择算法中异体的有害性,改进了传统阴性选择算法中关于自体、异体绝对不相容的定义缺陷;
·利用惩罚因子权衡并调整病毒文件识别率和正常文件虚警率。
2、提出了基于免疫浓度思想的计算机病毒检测模型
·利用免疫浓度的思想来构造病毒特征,解决了现有方法中特征向量的维度过高的问题;
·简化了分类器的设计和实现;
·相对现有工作特征提取只使用病毒趋向信息一个维度,增加另一维正常文件的趋向信息;
·特征选择具有较好的表征性和鲁棒性,对未知病毒的检测效果好、泛化能力强;
·局部浓度方法在此基础上考虑了特征的位置相关信息,可以提升模型效率;
·建立了最优浓度特征向量的系统优化框架,通过代价函数的动态优化可以得到最优浓度特征。