论文部分内容阅读
入侵检测是一项历久弥新的技术,只要有信息技术的地方就有计算机入侵,只要存在入侵就需要入侵检测系统。入侵检测从产生至今发生了非常大的变化,从简单到复杂,从单一到多样化。PE文件作为计算机程序的核心能够体现程序的行为,其行为通过系统服务接口API来完成。因此API序列的组成就代表了程序的行为组成。条件随机场模型是一种近几年提出的一种用于语言处理方面的序列标注问题和命名实体识别方面的机器学习的方法,是一种判别式的无向图模型,该模型通过可观测状态序列构建未观测标注序列的条件分布,根据概率公理选择条件概率较大的标注序列作为其对应的状态序列,实现对分析对象的分类。序列数据的处理和丰富的特征标签结合在一起,使条件随机场模型特别适用于感知上下文要求的分类。基于以上理论,本文采用一种基于统计和条件随机场模型的机器学习的方法,以PE文件为数据源,进行入侵检测方面的研究。本文的研究工作主要包括以下创新点:(1)针对PE文件结构,获取并分析PE文件头部信息,总结PE文件的结构性异常,无需对程序监控和文件脱壳,在程序运行之前就可以根据异常项判断程序是否为病毒文件或者被病毒感染入侵。(2)通过分析程序的PE文件提取API函数调用序列,将其分割为长度为k的短序列与攻击树匹配,再对攻击树各节点计算其发生的概率及恶意性权值,最后综合计算攻击树根节点代表事件的危险指数用来估计该程序与木马的相似程度,从而判断程序为木马程序或者包含木马部分的可能性,以准确地检测和防范木马攻击。(3)结合PE文件中API函数的上下文信息和领域知识,以API调用序列作为观察序列,文件类别作为标记序列,对每一个API函数进行标注,运用条件随机场模型,通过训练集的训练判断每个API函数的标注类别,最终对待测文件的API序列中的每一个观察序列进行标注,根据标注的具体比例,判断PE文件的类别,最终实现将基于PE文件的入侵检测问题转换成入侵与非入侵的二分类问题,同时结合病毒文件的结构性异常分析,实现较好的入侵检测的效果。(4)在磁盘监控和PE文件结构解析的基础上,进行入侵检测模型的设计与实现。