论文部分内容阅读
异常检测技术由于其在网络安全、信用欺诈和金融分析等领域的广泛应用,一直都是信息科学研究领域的关注重点,研究者们将统计学,数据挖掘,信息理论等众多技术引入异常检测的研究,提出了许多有效的异常检测方法。但是随着社会信息化程度和数据采集自动化程度的不断提高,许多数据如商品交易、视屏点播等都以数据流的形式出现,因此数据流作为待分析的动态数据集合越来越多地引起研究者和工业界的关注。相比传统的静态数据集,数据流具有海量,无限、多变化(概念漂移)等特点,这些特性都对传统的异常检测方法提出了挑战,其中概念漂移更是给数据流异常检测方法的有效实现带来了极大的困难。如何建立一种基于数据流的异常检测方法,使得该方法既能体现概念漂移对异常检测模型的影响又能快速有效的进行异常检测,将是一个重要的研究课题。本文以数据流作为研究对象,把对数据流概念漂移的处理引入异常检测研究领域,通过捕获和容忍数据流的分布变化,提出了一种适合数据流应用场景的异常检测方法,具有较高的应用价值。本文开篇对传统的异常检测技术和现有的数据流异常检测技术进行了分析,简要介绍了典型的检测方法并给出了自己的见解。在此基础上,本文提出了一种响应式数据流异常检测方法。该方法首先将有监督和无监督算法结合应用到数据流异常检测中,在实现了未知异常数据对象检测的同时保证了检测的效率。针对数据流中概念漂移的难题,引入了概念漂移检测和容忍策略来适应数据流分布的变化。通过训练数据选择、训练数据更新和多分类器集成,提高了分类器对概念漂移的容忍度;通过量化分析和比较数据流中不同时间数据对象集合的整体特征,实现了概念漂移的检测,并以此为依据触发异常检测模型的更新。实验表明,本文提出的响应式数据流异常检测方法不但能够有效地实现数据流的异常检测,也能够捕获数据流的概念漂移并及时更新异常检测模型。最后本文尝试将该方法应用于P2P僵尸网络检测中,通过对僵尸病毒传播过程中的P2P僵尸通信进行捕获,辅助实现网络中僵尸主机的发现,为进一步发现整个僵尸网络提供依据。实验表明,本文中提出的数据流异常检测方法能够有效的捕获P2P僵尸病毒之间的通信。