基于孤立森林的双层概念漂移检测算法及其应用研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:moowoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在非平稳环境下,动态数据流分布以不可预见的方式随时间发生改变,这种情况被定义为概念漂移。对存在概念漂移的数据流进行分类时,如果不更新分类器,分类模型的性能会下降。若仅根据经验不断地更新分类器,模型性能不仅得不到显著提升,还会增大不必要的计算量。因此,及时并准确的检测到数据流中的概念漂移位置,并将漂移后的样本进行分类模型的再训练,对提升模型的分类精度至关重要。针对以上问题,本文将异常检测技术与分层结构思想相结合,提出一种简单有效的基于概念漂移检测技术的数据流分类算法,具体研究内容包括以下几点:(1)提出基于孤立森林的双层概念漂移检测算法(IF-DLDD)。该算法包括检测层和验证层两层结构。检测层利用孤立森林技术,将当前窗口中获得的样本异常量与前一窗口中的异常量进行比较,若存在显著差异,验证层则会被激活,并对孤立森林所计算出的样本异常分数进行检验,若发现数据分布发生改变,则准确定位该漂移区域。将该算法应用于含有一定噪声的人工数据集进行实验,数值实验结果表明,该算法适用于多种类型的概念漂移,在大多数数据集上均能够及时检测到漂移。双层检测的结构可以保持较高的概念漂移检测识别率,有效减少漂移的误报,同时验证了算法具有抗噪性。(2)提出基于IF-DLDD的数据流分类算法。对不平稳环境下的数据流进行分类,先利用IF-DLDD明确检测到数据流中存在概念漂移,在新到来的概念数据上重新训练分类器。另外,通过使用粒子群算法实现参数的优化,得到预测精度最佳的分类模型。实验表明,基于IF-DLDD算法的分类模型再训练方法能够适应不断变化的数据流,模型分类性能较好。(3)基于上述两种算法,本文研究了概念漂移与网络攻击检测的相关问题。首先,构造CIC-IDS2017概念漂移数据集,该数据集包括良性攻击和多种恶意攻击类型。然后,利用IF-DLDD进行概念漂移识别,可以较为准确的检测到网络入侵。与没有进行概念漂移检测的分类模型相比,模型分类准确率提高了约45%。以上实验表明,本文所提出的IF-DLDD算法可以有效检测概念漂移,并能根据概念漂移的发生情况及时更新分类器,分类模型相比于初始模型表现出良好的分类性能,本文算法为概念漂移的实用性提供了新的研究思路。
其他文献
本篇实践报告的翻译材料是基于无参考译文的英文原版书《帝国叙事:晚期哈布斯堡王朝与奥斯曼帝国的多民族主义观》(Narrated Empires:Perceptions of Late Habsburg and Ottoman Multinationalism)中的节选部分(第三章和第四章)。本书主要是由编辑Johanna Chovanec和Olof Heilo收集了多位作者的论文合成。讲述了欧洲东南
学位
本文以离散网络控制系统为研究对象,分别考虑存在网络频宽受限、网络延迟、外部扰动、数据丢包以及欺骗攻击等复杂情况,运用Lyapunov稳定性理论、动态事件触发机制、比例积分微分(PID)控制方法、基于观测器的控制策略等讨论系统稳定性常用的方法,研究了系统的稳定性及安全性。主要研究内容如下:第一、讨论了基于观测器设计的非线性模糊离散系统的PID安全控制问题。首先,将网络系统建模为一个带有时滞的Taka
学位
随着全球化进程和文化全球化的不断推进,外语的利用率与学习热度达到了空前的高度,这也使得英语教学与创新日益受到人们的关注。译好此类书籍不仅可以使阅读创新类教育书籍变得唾手可得,拓宽中国教育工作者的视野,还能够丰富我国教育创新的理念,吸取国外教育领域的精华,为我所用,其重要性可想而知。此外还可以为相关领域提供参考材料,一定程度上补充国内教育事业的创新短板。《教育与学习中的创造性:教师和教育者的指南》是
学位
近红外光谱(NIR)分析技术是一种基于统计学、数学、计算机科学与化学的快速检测技术。数据分析在光谱统计建模过程中起到重要的作用,通过统计方法的研究,提取隐藏在数据中有价值的信息,分析出待测对象的关键性质特征。由于NIR光谱是一种间接分析技术,需要研究有效的化学计量学方法,构建多目标优化定量分析模型,以提高预测结果的精准性。模型质量对近红外光谱分析的精度有重要影响,需要在样本划分、波段优选、数据预处
学位
鸡蛋因富含多种氨基酸而广受人们欢迎,是人们日常生活中蛋白质的重要来源,在居民消费中占有重要地位。我国是世界上最大的鸡蛋生产国和消费国,截至2020年我国鸡蛋年产量为3512.85万吨,约占世界40%。除此之外,鸡蛋期货于2013年11月8日在大连商品交易所上市,从而鸡蛋期货成为了中国第一个鲜活农产品和畜牧期货品种,其上市不仅丰富了我国期货市场的品种系统,而且也为鸡蛋业规避“鸡飞蛋打”提供了一种有效
学位
投资组合问题是将一定的资金分配到多种资产上,从而尽可能达到收益较大、风险较小的目的,它是金融领域的一个重要课题。马科维茨于提出的均值-方差模型为证券组合问题提供了理论依据。从那以后,各种改进的思路层出不穷,使证券组合理论不断地被完善和发展。本文基于均值-CVa R模型,引入Yager熵补充风险指标,建立均值-CVa R-Yager熵的模糊多目标投资组合,并改进了水波算法,提高了求解投资组合模型的精
学位
基于核的机器学习方法(简称核方法)是人工智能和机器学习领域的研究热点之一,广泛应用于图像处理、生物信息技术、文本分类和入侵检测技术等多个领域。其中,极限学习机和支持向量机(SVM)作为一种高效的分类和检测工具引起了广泛关注。本文提出了一种分布式算法来解决核极限学习机以及SVM在大规模数据集中的应用问题。首先,核极限学习机虽然能够解决复杂的非线性问题,但当处理大型核矩阵时十分耗时。基于此,本文提出了
学位
随着大数据时代的到来,人们观察的数据维数已经逐步从高维发展到超高维,并且越来越频繁地出现在科学研究的各个领域,例如经济学、生物医学、结构化学等等。由于超高维数据的维数过高,有计算成本高、精度下降等问题,以致目前成熟的高维数据分析方法无法直接应用。如何从超高维数据中提取出真正的重要变量成为众多学者们关注的重点。截至目前,常规的超高维数据研究已经取得重要进展,而对于一些特殊类型的数据,如超高维数据与生
学位
平面调和映射是复分析中一个重要的方向,1984年,Clunie和Sheil-Small得到了若干关于单叶调和映射与共形映射中经典问题的类比结果,比如经典的增长和偏差定理,覆盖定理和系数估计的问题等。从这之后,调和映射得到了学者们的广大关注,并逐渐发展成为一个热门的研究课题。调和映射是复变函数论中的概念,调和映射常出现在诸如流体动力学、电学、磁学等实际问题中。在微分几何中,调和映射也可以用来表示一类
学位
随着大数据来临,数据分析的难度越来越大,同调代数的方法被应用其中。同调代数理论的完善有助于为数据分析提供更多的方法与理论。同调维数是研究同调代数的重要工具,1969年,Auslander和Bridger首次在双边Noether环上提出了有限生成R-模M的Gorenstein维数的概念,为同调维数的研究提供了新方向。阿贝尔范畴比其他范畴更具有一般性,而三角矩阵环是一类重要的非交换环,本文将针对阿贝尔
学位