论文部分内容阅读
随着互联网相关技术的发展带动各行各业欣欣向荣,对在网络上存在的安全问题提出了一些挑战,对于上游更偏底层的病毒入侵等攻击型网络安全问题,给入侵检测方面带来了危机,而对于下游,在上游网络安全的保障下也出现了一些问题,线上交易的支付环节,非用户本人行使而是被盗用的,这给交易异常检测带来带来了挑战。具体来说,一方面,网络入侵行为越来越多样化,数据规模越来越大,给入侵检测带来挑战。另一方面,依靠网络进行线上交易越来越流行,交易欺诈问题日益增多,给电商、银行和个人带来损失。在入侵检测方面,至今许多机器学习方法被应用其中,但传统的机器学习方法更倾向于解决一定规模的入侵数据分类问题。最近几年,深度学习方法得到发展,而结合深度学习可以很好的解决大规模数据问题,因此如何应用深度学习到入侵检测中是可以继续探讨的。在异常交易检测方面,传统的诸如误用检测过于依赖负样本集,且负样本获得代价大,不利于获取。现今方法中以异常检测中马尔可夫链式模型为主,该方法可以很好的概述用户画像,然而用户交易行为周期性的变化导致误报率有所升高,因此并不完全适合,鉴于此,这方面仍然具有研究价值。本文的主要研究工作包括:(1)介绍了网络入侵检测和异常交易检测的背景及其研究现状,主要概述了入侵检测系统及其分类和使用的相关技术,之后介绍了异常交易的概念及检测交易的风控系统相关理论。(2)旨在提升少数数据类的侦测率,并通过特征降维减少训练时间,以解决数据规模大时,训练时间过长的问题。因此研究稀疏自编码网络(SAE),使用NSL-KDD数据集,将Adam函数作为优化器应用于稀疏自编码网络对数据进行降维,通过实验验证,选择了适当数量的前训练迭代数和隐藏层,以及通过light GBM算法构造的二叉树结构方法进行分类。最终通过实验,对算法进行比较分析和总结。(3)为了解决随着时间的推进,用户行为也会周期性变化,从而出现概念飘移,导致误报率上升的问题。研究并提出一种结合顺序性的用户行为画像,以及扩展用户在未来交易中存在的多样性,用以一定程度避免用户行为过于受历史交易数据的影响,最后通过实验与其他算法做比较分析。本文的创新之处包括:(1)提出了一种基于堆稀疏自编码的二叉树集成入侵检测方法(SSAE-Light GBM),首先将数据分为五种类型,之后结合两种采样方法先解决数据分布不平衡问题,特别是数据量少的类型数据,以上预处理方法将大规模数据分而治理为之后训练各自的模型,再采用稀疏自编码器网络进行特征降维,这种网络结构的降维方法可以保证在原始数据中抽取出更深层的特征并同时节省降维时间。最后通过light GBM(轻量级梯度提升模型)集成算法训练模型,而采用light GBM模型相比其他能达到相同性能的模型在训练时间上更具优势。实验使用NSL-KDD数据集验证我们方法的准确率、精确率、召回率以及综合评价指标F1上平均分别达到了87.42%、98.20%、91.31%,优于对比算法,且明显节省了运算时间。(2)提出一种基于顺序关系的改进多样性异常交易检测方法,基于定义好的用户行为画像有向逻辑图,并结合信息熵和余弦相似度方法增添用户的交易行为多样性。采用多样性系数可以一定程度上克服概念飘移问题(即降低误报率),最后通过实验测量了我们定义的消费金额稳定性用户等级分别为HS(High Stability)、MS(Median Stability)、LS(Low Stability)三类,测量指标为准确率(accuracy)、召回率(recall)、Roc下面积以及运行时间,最终该方法在各类指标上平均分别达到了91.75%、94.07%、83.50%和1800s,虽然运行时间上有些许欠缺,但总体性能优于对比算法。