基于集成学习的数据流分类算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:liuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社会高速发展、信息急剧增加的大环境中,各个领域的数据呈现爆炸式增长,数据的增量模式使得世界来到了大数据时代。对于如何从海量数据中挖掘有效信息,成为当前社会科学的一个重要关注点。分类技术是机器学习和数据挖掘领域的主要手段之一,主要思想是根据已有的数据以及标签训练分类器来预测未知数据的标签。传统的分类方法用于处理静态数据,所构造的分类模型是固定的,不利于处理动态变化的数据流。数据流具有数量无限,快速到达,及时响应,概念漂移,不平衡等特征。如何应对数据流特征从而进行正确分类,是目前分类问题研究的重点。为了适应数据流随时变化的特点,数据流分类模型也要根据数据的变化做出相应的改变,不断进行调整。数据流中存在概念漂移和不平衡问题,如何有效的检测概念漂移和不平衡,以及处理这两种现象是数据流分类需要处理解决的问题。因此,本文根据不同的数据流处理方法,对数据流分类问题进行了深入的研究,主要内容包括以下两个方面:(1)对数据流进行分块批处理,采用窗口模式,衡量分类模型对前后两个数据块的分类能力。提出了一种基于Kappa系数的概念漂移检测和针对类不平衡的SMOTE采样方法相结合的动态数据流分类算法。该算法在分类过程中计算每个数据块分类结果的Kappa系数,检测数据流前后的概念是否一致,是否发生概念漂移。当数据流中的概念发生了变化,预示着可能出现了数据的不平衡。若不平衡,对当前数据块用SMOTE采样方法平衡数据,系统依据已有的知识,及时将所有不符合要求的分类器淘汰。利用采样后的数据块训练新的分类器加入到分类器集成中。实验结果表明,该算法与同类算法相比分类效果有了明显的提高。(2)对数据流进行在线及时处理,提出了一种基于在线学习的数据流分类方法。该算法对数据进行及时处理,采用OnlineBagging集成分类器,利用Possion分布,改变对每一个数据的分类次数达到更新分类器的效果。与第一部分相似,采用Kappa系数检测概念是否发生变化,引入类规模更新衰减因子_tw,每到来一个数据就要更新一次_tw的值,根据_tw利用Possion分布得到分类次数,达到重采样的效果,从而处理了非平衡问题。实验结果表明,该算法不但能检测到概念漂移,还能很好的提高算法的分类性能。针对数据流中存在的概念漂移和不平衡问题,本文提出了两种基于集成学习的数据流分类算法,不但有效的检测出数据流中存在的概念漂移,而且提高了少数类的分类精度。但这两种方法也有一定的局限性,比较依赖于数据集内部结构,如何将概念漂移检测和非平衡处理有效地结合仍待进一步的研究。
其他文献
随着移动互联网、5G、人工智能、大数据等新兴信息技术的快速发展,用户的知识接收习惯发生了巨大改变。在有限的时间里获得高性价比的知识成为人们的共识。用户获取知识的习
为了研究川芎不同成分对蛙心脏活动的影响 ,应用斯氏离体蛙心灌流方法 ,观察和分析了川芎水煎剂、川芎嗪注射液和川芎挥发油对离体蛙心的作用 .结果表明 ,当灌流 ρ(川芎 ) =
目的探讨孕期日记对妊娠期糖尿病孕妇的干预效果。方法选择在上海市某三级甲等医院产科门诊产检的妊娠期糖尿病孕妇142例,随机分为实验组和对照组,每组71例。实验组除接受常
磷酸三酯(α-氯丙基)和磷酸三乙酯在生产过程中会产生工业废水,水体经过催化氧化、混凝沉淀处理后生成了大量的固体废物。本文使用SEM/EDS、XPS、ICP等仪器对固废的性质与组
文章对我国保险公估人执业现状及保险公估人胜任能力影响因素进行了分析,探讨了作为保险公估人如何适应生存环境,提高自身的专业胜任能力。
基层是直接位于面层下的结构层次,而垫层是基层和路基之间的结构层次。基层和垫层主要起承重、扩散荷载应力和改善路基水温状况的作用。为此,对基层和垫层提出了刚度(抗变形
<正>《党政机关公文处理工作条例》(中办发[2012]14号,以下简称《条例》)第四章为"行文规则",从第十三条到第十七条共有5条,对党政机关公文行文中所要注意的问题作出了详细的
吸附法广泛应用于重金属废水的治理过程。本研究通过对天然蛭石进行改性修饰,制备出改性蛭石,并通过与胡敏酸混合,分别得到对镉、对砷以及同时对镉砷具有良好吸附效果的复合
以岱山县、定海区为样本,利用偏离-份额分析法与"三轴图"法剖析舟山市产业结构的演化历程与特征.研究发现2005~2013年间,舟山市经济总体快速发展,县际极不平衡;三次产业结构
环氧树脂因具有良好的化学惰性、电气绝缘性和对多种基材的强附着性而常被用于防腐涂料领域。但环保的双组分水性环氧涂层往往因存在微孔而对腐蚀介质的阻隔性不尽人意。因此