非稳态环境下的数据流在线变化检测

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:meinv123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大多数机器学习技术都假设系统过程满足稳态要求,可保证在最初训练阶段获得的模型能够长期有效地发挥作用,且其性能始终满足设计者的期望。然而在实际应用领域,受到传感器老化漂移、软硬件故障、待监测环境/平台中的变化等内外因素的影响,系统不再满足稳态假设,即发生了非稳态变化。这些变化使得数据或目标变量的统计特性随时间朝着不可预知的方向发展,因而基于原模型的预测、分类或决策等将不再适用于当前系统过程。  非稳态环境下的学习问题是目前机器学习领域的研究热点,受到研究者的广泛关注。尤其是包含变化检测和模型更新两大模块的主动学习,能够及时检测到变化并更新模型,可以有效降低非稳态变化的影响、保障模型的学习决策性能。然而,现有的非稳态环境下的学习问题在方法研究和应用实现上还有很多未解决的问题,如模型的自适应更新和数据库的管理等。其次,现有变化检测方法往往假设数据的分布形式,或要求离线检测,或仅能处理一维数据情况,无法实现多维数据流的在线变化检测,即无法应对数据分布未知、参数未知、变化类型未知等问题;同时,如何有效控制计算复杂度,减少训练、检测时间,使其满足实时检测的需求也是研究的难点;最后,变化检测方法理论证明上的欠缺及其应用的局限性也制约着非稳态环境下学习问题的研究与应用。为此,本文以非稳态环境下连续分布的数据流为主要研究对象,设计其学习框架,并着重提出适用范围更广泛、理论依据更充分的变化检测方法。论文将包含以下工作和创新点:  1.针对非稳态环境下的学习问题,介绍了一种适时(Just-In-Time,JIT)学习框架,其具有一种自适应信息管理机制,综合考虑了监督数据对学习性能的提升作用以及概念漂移(Concept Drift)的显著影响。分别介绍了两种不同的变化检测方法和分类器模型,并通过实验对比了耦合得到的四种适时分类模型之间的性能差异,及变化检测结果对其性能的影响。  2.针对主动学习中变化检测方法对分类模型性能和适用性的影响,提出了基于最小二乘密度差(Least Squares Density Difference,LSDD)估计的数据流在线变化检测方法(LSDD-based Change Detection Test,LSDD-CDT)。引入了蓄水池采样算法,以管理数据窗口中的新旧样本;并提出一种分层递阶的变化检测机制,可以更精确地估计变化发生的位置。该方法无需先验知识或假设变化类型,而直接估计前后数据窗口中分布差异,是一种适用于数据流问题的在线变化检测方法。在具有不同分布类型和变化类型的模拟数据集和实际应用上进行的实验比较中,验证了该算法的广泛适用性和变化检测的准确性。  3.针对参考集中有限样本选取的随机性、参数选择不合理等对算法性能的影响,研究并提出了多种基于集成学习的变化检测方案,分别探索了训练子集的获取方式、参考集的更新方法以及检测结果的耦合形式等多样性表达形式的影响。实验结果表明,基于集成学习的、多样性充分表达下的变化检测方法,比LSDD-CDT方法具有更高的检测准确性。  4.针对前述变化检测方法理论研究上的欠缺,率先证明了特征统计量的分布形式及窗口大小对算法误检率和漏检率的影响等。在此理论基础上,提出了增大参考集窗口下的阈值调整策略,可以充分利用已知信息在线更新阂值,无需重新训练模型;并引入了增量式的特征统计量的迭代算法,以加快变化检测速度。将该算法与其他先进的变化检测方法进行了充分的实验比较,并在检测精度上进行了多组假设检验,其结果表明了该算法具有更优越的广泛适用性和检测准确性,且计算时间更短。  5.考虑海量数据环境下的变化检测问题,提出了融合KS检验和最小二乘密度差的变化检测方法。探索了变化检测层与特征提取层窗口的分离机制:基于KS检验的变化检测,满足窗口自适应调整的需求;同时保证基于最小二乘密度差的特征提取过程中小窗口的快速计算。实验验证了所提算法对误检率的有效控制及其对小变化的可检测性。
其他文献
基于视频图像处理的交通对象检测与分析是智能交通系统研究的重要组成部分。随着视频监控硬件技术和视频图像处理软件技术的快速发展,智能交通视频监控分析受到了广泛关注,并开
针对大规模、高维度的图像分类任务,基于人工设计的特征提取算法很难快速准确的对图像进行识别。基于数据的特征学习方法,特别是深度学习,能够充分发挥并行计算架构的优势,从大量
在鞋底生产过程中,为了快速响应市场,企业采用市场和客户的需求为导向安排生产,这使得面向订单生产是此类企业最重要的生产方式,根据客户的订单需求,实现生产计划的快速响应并合理
绗绣这种生产工艺在现代纺织生产中得到广泛的应用,是纺织服装企业常用的技术手段,它和一般传统刺绣产品无论在花色、款式、制作和工艺上都有很大的区别,经过绗绣处理后的产品一
学位
无线传感器网络的随机部署、自组织、环境适应等特点使其在军事、环境、医疗、工业和其他领域有广阔的应用前景和很高的应用价值。工业无线传感器网络是无线传感器网络在工业
学位
序列标注是自然语言处理和机器学习领域中的一项重要的基础性工作,是近年来的一个研究热点。本论文研究序列标注中的神经网络方法,具有理论意义和应用价值。  论文的主要工作
随着互联网的发展,人类已经进入大数据时代。如何有效地存储和检索这些数据是发挥大数据高级价值中至关重要的一环。传统方法在对数据进行有效地压缩和检索,处理高维数据,利用更
目前,烟草企业信息化建设已经取得了一定的进展,完成了信息化的初步改造,但是由于现场设备的数据采集系统建立不完善,无法为上层管理系统提供基础、底层的数据信息,因此各系
学位
随着高新技术的发展,越来越多的高精密负载对输入电源的稳压精度要求越来越高。但是,由于市电电网电压的波动较大,不能满足高精密负载的要求,交流稳压电源作为一种能快速补偿
VPN(虚拟专用网)是一种远程安全接入技术。它可以为互联网上企业内部网之间建立一条专属的通讯线路。利用VPN能够获取安全的语音、视频等方面的服务。SSLVPN是新兴的VPN技术,