论文部分内容阅读
僵尸网络是在蠕虫、木马、后门等恶意代码的基础上发展而来的一种复合攻击方式。攻击者出于恶意目的,制造或传播僵尸程序从而感染大批主机,并通过隐蔽的通信信道传送指令,实现对僵尸主机的一对多控制。僵尸网络广泛分布于家庭、企业、政府机构等多种场合,不仅是发动分布式拒绝服务攻击(DDoS)的主力,也是垃圾邮件的重要源头,还可被用作信息窃取、网络钓鱼、广告滥点、非法投票等多种违法违规网络行为的实施平台。近年来,僵尸网络已经成为互联网的主要威胁之一,是信息安全领域需要重点研究和防御的攻击手段。本文首先对僵尸网络的关键概念及其本质特性进行了综合研究。随后从时间和空间两个层面,分析了僵尸网络生存期内不同阶段流量的代表性特征,并设计了一种基于局域网边缘流量相似性的层次化僵尸网络检测模型(HTBC)。HTBC分别从时间和空间两个角度对僵尸网络流量中的通信三元组及四元组进行了特征提取及两步聚类,挖掘通信行为高度相似的僵尸网络主机群。HTBC检测模型无需借助其他工具,只需利用流量采集工具得到局域网边缘的数据流集合;也不局限于检测固定类型的僵尸网络,只要局域网内部的被感染主机达到一定数目,HTBC模型就可根据僵尸网络通信流量表现出的相似性实施检测。通过真实网络流量数据集的仿真验证,HTBC检测模型取得了较高的准确率与较低的漏报率,证明了模型在真实网络环境下的有效与健壮性。本文取得的创新性成果主要有以下三个方面:(1)在特征提取方面,从网络流量数据的不同角度着手分析,将时间与空间两个方面的特征分开考虑:通过数据流持续时间、数据流间隔时间等特征分布创建了时间特征模型;通过数据流包个数、包体积等特征分布创建了空间特征模型,更全面具体的刻画了僵尸网络的行为模式。(2)在对行为的相似性检测方面,提出了多层次交叉匹配的验证方法:一方面横向的将时间和空间两个特征层面具有相似性的主机集合进行交叉匹配,另一方面纵向的将不同时段间的主机集合进行匹配。通过这种多层次的匹配方案降低了检测的误报率。(3)在可疑结果的筛选方面,不仅将表征两个集合相似程度的杰卡德系数(jaccard)作为度量指标,还结合了机器学习中的逻辑回归模型。利用正常流量样本簇的重叠比例等数据建立逻辑回归平面,实现了对异常的重叠匹配结果的筛选。