论文部分内容阅读
随着网络应用范围的不断扩大,安全问题已成为迫切需要解决的问题之一,其中内部威胁引发的安全问题尤为突出。基于用户行为的异常检测可以有效地检测、预防内部威胁,而如何及时准确的对复杂用户行为场景进行异常检测是当前亟需解决的关键技术问题。基于序列模式的异常行为检测技术因其能够充分挖掘事件之间的关联关系,构建行为模式,通过实际行为与正常模式之间的比较以检测异常,正成为用户异常行为检测的研究热点。当前复杂应用场景下,用户行为的多样化、复杂性与高频性给基于序列模式的异常行为检测技术提出了严峻的挑战。一是行为数据的实时到达,且起止边界未知,这需要所设计的基于序列模式的异常行为检测算法具有自适应性、低延迟以保证行为数据能够被快速准确处理;二是用户行为自身存在结构性关系,且受用户主观随意性的影响,数据分布存在动态变化,这要求所设计的基于序列模式的异常行为检测算法能够动态调整行为模式以保证检测的准确性。目前基于序列模式的异常行为检测技术研究多是在行为数据划分方式已知的情况下对历史数据进行非实时性检测,难以满足数据流下自适应性与低延迟的要求。已有的检测算法没有充分考虑用户行为的结构性关系,难以满足准确性的要求。为此,本文围绕以实现低延迟、准确、自适应的用户异常行为检测为目标,对数据流下的用户行为序列异常检测展开深入的研究,并设计实现了基于模块化的用户异常行为检测系统。复杂应用场景下,用户行为数据快速实时到达,且起止边界未知,存在结构性关系,这要求基于序列模式的异常行为检测算法能够自适应划分行为数据,保证检测的低延迟与准确性。为此,本文提出了一种基于贝叶斯网络的用户行为序列异常检测算法BSB-ADetection(Bayes based Sequential Behavior Anomaly Detection Algorithm),该算法基于贝叶斯网络构建行为序列模式,充分考虑用户行为的结构性关系,实现实时准确的用户异常行为检测。为了实现数据流下用户行为的自适应划分,BSB-ADetection算法基于滚动窗口,采用时间关联性与模糊逻辑的方式定义行为关联强度,在数据流上还原真实用户行为场景。为了实现低延迟、准确的异常行为检测,在模式构建过程中通过动态剪枝方法降低投影空间复杂度,提高挖掘效率,通过行为关联强度匹配top-k行为模式,降低模式遍历复杂度,以降低检测处理延迟;同时采用基于有向回环图的存储策略保存行为结构性关系,基于贝叶斯网络计算相似度评分,以保证检测的准确性。实验表明,BSB-ADetection算法能够有效实现数据流下用户行为的自适应划分,降低检测处理延迟,提高检测准确性。与经典PrefixSpan算法相比,BSB-ADetection算法检测处理延迟降低了36.8%,同时误报率降低了6.4%,准确率最高可达98%。数据流环境下,用户主观随意性导致行为数据分布不断发生变化,从而引发概念漂移,这要求基于序列模式的异常行为检测算法具有自适应性。为此,本文提出了一种数据流下的增量式用户行为序列模式更新算法ISPU(Incremental Sequence Pattern Updating Algorithm),该算法引入时间衰退因子概念,实现序列模式的动态更新,同时根据模式突变实现概念漂移的识别与自适应。为了实现序列模式的动态更新,ISPU算法为所有模式赋予基于时间衰退的权重,通过控制衰退指数,既避免了模式的过度增长,也避免了直接剪枝引发的模式缺失问题,自适应行为数据的动态变化。将模式突变作为概念漂移的检测指标,能够有效识别概念漂移,同时通过调整时间衰退因子,加速模式更新,实现概念漂移的自适应。基于经典数据集UNM的实验表明,ISPU算法具有良好的自适应性。在检测过程中,模式数量稳定在23~25,这说明ISPU算法能够自适应数据的动态变化;在概念漂移发生初期,模式数量呈指数级增长,并在短时间内快速回落,这说明ISPU算法能够快速准确识别并适应概念漂移。为了进一步验证本文的研究成果,同时考虑到实际应用场景中对系统灵活性、吞吐率、检测延迟的要求,本文设计并实现了基于模块化的用户异常行为检测系统MB-UBAD(Modular Based User Behavior Anomaly Detection System)。该系统基于“分层-解耦”设计思想,采用模块化方式集成现有流式数据处理系统,提高系统灵活性以及吞吐率,降低检测处理延迟。同时,该系统以BSB-ADetection和ISPU作为算法基础,二者协同完成数据流下用户异常行为检测任务。为了提高系统灵活性,引入基于工作流引擎的拓扑映射技术,减少人为配置过程,将物理节点对用户透明,使其更加关注于业务逻辑。为了提高系统吞吐率,降低检测处理延迟,引入基于规则的自关联技术,根据集群实时状态信息实现节点动态分配,从而避免节点过载,提高系统的吞吐率。实验表明,基于模块化的异常行为检测系统MB-UBAD具有较高的灵活性、系统吞吐率,以及较低的检测处理延迟,能够有效满足用户异常行为检测需求。