论文部分内容阅读
僵尸网络是出于恶意目的,传播僵尸程序并控制大量主机,并通过一对多的命令控制信道C&C所组成的网络。僵尸网络为攻击者提供了隐匿、灵活且高效的一对多命令与控制机制,攻击者可以控制大量僵尸主机实现信息窃取、分布式拒绝服务攻击和发送垃圾邮件等。僵尸网络已进入快速发展期,僵尸网络的数量和规模也不断增加,对因特网造成严重威胁,网络安全领域针对僵尸网络的检测的技术也不断更新发展。本文提出一种基于通信行为相似性检验的僵尸网络同源识别模型,该模型可以通过网络中的流量特征,对网络中可能存在的僵尸网络进行识别,并可根据不同僵尸网络特征进行同源性识别,追溯不同僵尸网络来源。由于在真实网络环境下包含有大量正常通信流量,僵尸网络往往利用这一特点,将自身藏匿在巨大流量中,难以识别,所以本文通过一系列的过滤手段,根据僵尸网络特征对流量数据进行筛选过滤,提出一种基于相似性检测与稳定性检测相结合的综合检测方法,在对网络流量进行聚合后,根据同一僵尸网络在通信特征上相似性,在数据包大小在时间上的稳定性,设计综合检测算法,将僵尸网络流量与正常网络流量剥离出来。在大规模环境下对僵尸网络进行提取之后,可以得到大量不同种类、不同源头的僵尸网络,所以需要寻求一种可以溯源的分类方法,这样对网络安全人员的分析以及制定合理的解决措施大有帮助,所以本文提出一种基于网络流量的相似性检验,利用时间序列数据挖掘的方式,引进动态时间弯曲距离算法来计算通信曲线之间的相似性。为提高检测的效率,引入了两个具有动态时间弯曲下界距离来过滤不同源的僵尸网络数据。本文通过使用真实环境下的僵尸网络数据集进行验证,利用标记数据对僵尸网络检测结果进行验证,通过与交叉聚类实验进行对比,证明本文综合检测方法有较高的检测率与较低的误报率;通过数据集确定相似度测量的阈值,并对测试数据集中同源性的识别率进行统计,实验证明了本文的基于流量相似性检测同源僵尸网络的有效性,对比不同下界距离对于算法时间开销的理论与实际计算量。证明了模型的高效性。