基于多尺度窗口的概念漂移检测算法研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:robinchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,越来越多的数据从人类的社会生活场景中产生,从而导致数据出现了爆炸性的增长,与传统静态数据不同,这种新出现的数据形式具有高维度、高速性、动态变化且连续和数据量庞大等特性,一般称之为数据流。数据流的这些独到特征吸引着学者们的广泛重视。数据流的动态变化性与概念漂移息息相关,这导致概念漂移普遍存在于数据流中。因此带有概念漂移的数据流学习逐渐成为了一个热门领域。概念漂移检测技术经常结合其它数据分析技术应用于网络新闻热点、电信诈骗、服务器调度、消费者购物行为分析、网络账户安全等领域。
  本文将数据流分为单类别数据流和多类别数据流两种情况,单类别数据流即数据流中数据实例属于同一个类别,多类别数据流,即数据流中数据实例会有多个类别。本文针对这两种情况基于多尺度窗口机制,提出了对应的数据流概念漂移检测算法,在研究分析中主要进行以下工作:
  1.针对单类别数据流,提出基于多尺度窗口判断函数的概念漂移检测算法。考虑到数据样本同属于一个类别,可直接获取准确的概率分布。算法在数据流样本的每一个维度上保持两个多尺度窗口,分别为基准窗口和滑动窗口。第一步针对基准窗口,运用指数族和KL理论计算正常概念的转换矩阵并构造指数族概率密度函数。第二步,计算滑动窗口内待检测数据的判断系数,获得滑动窗口内样本的判断系数矩阵,第三步,利用灰色关联分析求取各个维度的权重,计算融合判断系数,并与阈值相比判断是否发生概念漂移,并利用一维数据集和高维数据集做相关实验。
  2.针对多类别数据流,提出基于多尺度窗口加权聚类的概念漂移检测算法。考虑到多类别数据流内部类别分布顺序可能无法得知以及获取实例真实类别标签代价巨大。本文研究了基于信息熵加权聚类算法,并基于该算法提出了概念漂移检测算法,该算法维持两个多尺度窗口,分别为基准窗口和滑动窗口。第一步,对基准窗口所有样本使用基于信息熵加权聚类算法计算正常概念实例的质心集合。第二步,利用质心集合计算基准窗口中的小窗口中样本的总平均距离,获得一个的总平均距离序列。第三步,结合统计过程控制计算阈值,第四步计算滑动窗口小窗口待检测样本的总平均距离,并和阈值相比判断是否发生概念漂移。并且根据数据变化的趋势可以判断出具体的概念漂移类型。并利用突变漂移数据集和渐变漂移数据集做相关实验。
  本文按照数据流的特点将其分为单类别和多类别数据流,从概率分布和样本间距离的角度分别针对单类别数据流和多类别数据流提出对应的概念漂移检测算法,并且通过利用多种类型数据集做相关实验证明了算法的有效性。
其他文献
参与性介质普遍存在于航空航天、能源动力等高新技术领域,例如,再入飞行器的热防护材料、航空发动机的高温陶瓷部件、航天飞机的光学窗口、太阳能集热器和涡轮发动机的隔热防护层等均属于参与性介质。为保证上述设备的安全高效运转,往往需要对其表面热流和内部温度分布进行近实时甚至是实时监测,但绝大多数情况下,由于表面恶劣的换热环境,基于现有的直接测量手段对上述设备边界瞬态热流和内部温度分布进行快速精确测量几乎是不
介质成分、密度、温度的非均匀性以及克尔效应、电致伸缩等作用会导致介质折射率的连续、非均匀分布,形成梯度折射率。由Fermat原理可知,光线在梯度折射率介质内沿曲线传播,会出现折射和全反射现象,导致辐射传输过程十分复杂。随着科学研究的深入,梯度折射率介质光热辐射传输在光学系统设计、医学成像诊断、大气遥感探测、光纤通信等工程领域中的重要作用逐渐受到重视,迫切需要精确模拟梯度折射率介质内光热能量传输特性
随着新型反应堆的开发,例如空间铀块式反应堆、小型反应堆等特殊堆型,核能系统的设计工作需要进一步深入研究。针对核能系统的数值模拟,在核能系统的开发设计和安全校核方面具有重要作用。而针对核能系统内中子通量密度分布的计算,是得到系统的辐射源和热源,是进行系统屏蔽设计、热设计等工作的前提条件。  无网格方法离散节点的选取具有高自由度、与几何维度无关的特点,适用于处理复杂几何结构问题。但无网格方法的发展尚不
学位
随着航空发动机的经济性指标不断提升,涡轮部件正面临着越来越严苛的来流温度和单级负荷。对于涡轮动叶,叶顶间隙泄漏流动削弱了燃气的做功能力,泄漏流体将在吸力侧通道内形成泄漏涡结构,加剧动叶通道内部的二次流动损失。叶顶间隙泄漏流动还将加剧叶顶表面的换热强度,损害动叶的有效使用寿命。叶顶间隙泄漏控制技术包括叶顶围带、凹槽叶顶等被动控制技术和叶顶射流等主动控制技术。蜂窝叶顶是一种基于蜂窝密封的叶顶结构,能够
近年来纳米技术得到了全方位的发展,微纳尺度光热转换与传输在包括生物医学领域在内的众多应用中起到至关重要的作用。2018年世界卫生组织公布的数据显示,全球癌症发病率和死亡率仍呈快速上升趋势。微纳尺度材料特有的高效光热转换特性可产生纳米尺度的高热流密度可调控热源,从而为新一代精准医学诊疗技术以及其他潜在的应用提供新的途径。纳米颗粒辅助的激光诱导肿瘤热疗技术是一种极具前景的精准肿瘤替代疗法,近些年得到了
学位
电化学气体传感器由于具有检测气体种类多,浓度范围宽,体积小,价格低,测量精度高,可用于现场直接检测等优点,在环境监测与安全生产等领域中得到广泛应用.但这类传感器也存在着一定的问题,即使用寿命较短.为了解决这个问题,同时也为适应一些特殊行为对气体传感器体积的要求,人们将研究重点集中到固体电解质上,希望能延长传感器的使用寿命并实现其微型化.目前,利用固体高聚物电解质(SPE)研制电化学传感器已在为电化
配电系统可靠性评估取决于所要研究的系统形式和所要求的分析深度.该文在综合影响配电系统可靠性各种因素的基础上提出了一种实用的可靠性评估方法.该方法充分考虑了系统运行的实际情况.在枚举引起负荷点供电停止事件割的基础上,还考虑了负荷点供电的负荷转移特性、网络元件的计划检修和活动性故障以及系统运行的过负荷约束等诸多情况,使评估过程更加合理和有效.程序运行结果还有利于系统人员发现配电系统的薄弱环节.该文方法
学位
随着科技的进步和需求的扩展,在天线领域越来越趋向于小型化、轻便化和多用化。本文以结构简单、易于制作的微带天线为基础,结合电磁超材料新技术和天线阵列技术,意在研究一种用于卫星通信的UHF/S双频段共口径低轮廓微带圆极化天线阵列。取得的成果如下:  1、研究了一种S频段微带天线单元,采用寄生贴片和双馈点馈电技术实现宽带圆极化和较高增益。采用该单元,设计了一个2×2平面阵列及其微带馈电网络,馈电网络与辐
学位
该文提出了一种新型的紫外光预电离结构——"印刷电路板预电离".该结构为采用双面敷铜的印刷电路板作为紫外光辐射源的分布式电容耦合器,与电晕预电离、火花针阵列预电离和半导体预电离方式相比,具有更好的预电离强度和预电离均匀性的结合,设计制作简单,结合紧凑,适合于横向高速气体流动系统,有利于产生高重复频率和高平均功率的脉冲激光.这种新型的结构已成功地应用于小型脉冲TEACO激光器.该文研究了照射阳极和照射
学位
随着经济全球化和世界经济一体化的趋势不断增强,航运水运的迅速发展大家有目共睹。大型船作为国家综合实力的体现,在海面航行时很容易产生船体砰击现象,砰击现象的主要表现形式是对船体结构造成的冲击压力和加速度振动,严重的砰击现象会对船体造成结构性损害,因此配备相关的传感技术对船体砰击载荷进行监测十分重要。基于此本文以研究压力、加速度传感技术为主体,确立用于船体砰击载荷监测的光纤光栅传感器研究的设计方法。