针对含有概念漂移问题的增量学习算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：tianzhizui

【摘要】

：

随着大数据时代的到来,大规模数据处理和学习成为了学术界研究的焦点,也为工业界设计更优质的应用和服务带来可能。增量学习通过增量式地学习新数据、更新已有模型的方法实现

【作者】

：

孙宇

【出处】

：

中国科学技术大学

【发表日期】

：

2017年期

【关键词】

：

增量学习概念漂移集成学习在线学习数据流挖掘监督学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,大规模数据处理和学习成为了学术界研究的焦点,也为工业界设计更优质的应用和服务带来可能。增量学习通过增量式地学习新数据、更新已有模型的方法实现大规模数据的处理,也受到了研究领域的广泛关注。然而,概念漂移,即数据联合概率分布发生变化的现象,往往会严重影响增量学习的性能,给增量学习在真实学习任务中的应用带来了巨大的挑战。为了处理增量学习中的概念漂移问题,本文提出了两个针对概念漂移问题的增量学习算法,并设计一个并行化学习框架。主要工作包括:首先,为了使用增量学习中的历史知识辅助概念漂移的处理,本文提出了一种基于差异性模型选择和知识迁移的概念漂移处理方法(DTEL)。本工作假设在概念漂移的情况下,历史数据中的知识和当前知识间存在相关性。因此,可以通过知识迁移的方式,一方面提取出历史数据训练所得模型(即历史模型)中的有用知识,另一方面去除其中和当前数据分布不一致的知识。通过这种方式利用历史知识辅助增量学习对概念漂移的处理。此外,由于存储空间的限制,仅有限数量的历史模型可以被算法所保存。对此,本工作提出一个基于差异性的模型选择方法。通过维护差异性较大的一组历史模型,为接下来的学习步提供尽可能多的知识,以更大的可能性为知识迁移提供较好的起始解。为了验证本算法的有效性,本工作使用了多组人造数据和真实数据进行实验,其中人造数据涵盖了五种不同的概念漂移类型、真实数据涉及了四个不同的应用领域。实验结果表明基于差异性模型选择和知识迁移的方法能够有效提升增量学习对于概念漂移的处理能力,且本算法在不同类型的概念漂移上均有较好的表现。其次,为了处理类演化类型概念漂移,本文提出了一种基于类的集成学习方法。类演化是一个特殊类型的概念漂移问题,指在学习过程中类出现或消失的现象。不同于已有工作中突变式类演化的情况,为了处理真实应用中的类演化问题,本工作将类演化建模为一种逐渐变化的过程,并提出了一个基于类的集成学习算法(CBCE)。通过新建基模型和抑制基模型的使用来达到处理类演化类型概念漂移的目的。考虑到渐变式类演化导致的动态类不平衡问题,本工作提出一个动态数据下采样的方法,并应用在各个基模型中。类演化类型概念漂移主要包括三种不同的基本元素,即类出现、类消失、以及消失类再次出现。本工作选用了人造数据和真实数据来表示各种的类演化场景,用以对基于类的集成学习算法进行综合的验证。实验使用两个真实数据集对类演化问题进行模拟,使用社交网络数据作为真实数据进行测试。实验结果表明本算法能够有效的对类演化类型概念漂移进行处理,且能有效处理渐变类演化带来的数据中动态类不平衡问题。最后,为了将增量学习算法在大规模数据中进行应用,本文设计并实现了一个针对概念漂移问题的并行化增量集成学习实现方法,用于提高增量学习中集成学习模型的学习和使用效率。在工业界真实应用中,大数据的学习中不仅要求算法具有较高的准确率,而且应该满足高效执行的要求,以适应数据的快速增长。可并行性是设计并行系统的基础。在增量学习中,集成学习模型具有很明显的可并行性。为了提升算法执行的时间效率,本工作对概念漂移处理中的集成算法进行分析归纳,总结出一个并行执行实现方法,以辅助集成学习模型的并行化实现。此外,本工作对DTEL和CBCE算法在此集成学习并行实现方法中进行实现并测试。测试结果表面并行实现后的DTEL算法和CBCE算法增量学习中具有较高的加速比,验证了此并行实现方法的有效性。

其他文献

发育机器人的潜在动作学习方法研究

发育机器人的研究目标是使得机器人具有类似于人类及其它生物的感知、行为、学习和决策等方面的能力,从而协助人类在动态环境下完成各种复杂的任务。向自然学习是研究发育机

学位

发育机器人潜在动作婴儿学习内在动机子任务分层强化学习

内蒙古自治区民族曲艺团在台湾巡回演出

<正> 内蒙古自治区民族曲艺团一行35人从7月18日至31日,陆续在台湾花莲县、高雄市、台北市等12个县市巡回演出,目前已完成4个县市的演出。表演节目以《鄂尔多斯婚礼》为主轴,

期刊

内蒙古

350MW循环流化床超临界锅炉的技术特点研究

该次研究以山西某电厂(2×350MW)超临界循环流化床机组工程锅炉作为分析对象,提出目前350MW超临界热电联产的循环流化床锅炉的技术特点,通过真实的设备技术介绍,明确超临

期刊

超临界锅炉技术特点

为企业进入职业教育开辟空间

在经济全球化时代，为适应科技革命、技术进步和生产方式变革，终身学习迅速兴起。职业教育内容、学制等方面的多样性、灵活性、模块化优势，使其更容易服务更大比例的人口，人们终身

报纸

内镜下注射聚桂醇在肝硬化食管胃底静脉曲张治疗中的应用价值

目的探讨内镜下注射聚桂醇在肝硬化食管胃底静脉曲张中的应用价值。方法选取我院2015年1月至2017年1月收治的108例肝硬化食管胃底静脉曲张患者为研究对象,根据随机数字表法将

期刊

聚桂醇肝硬化食管胃底静脉曲张内镜异位栓塞lauromacrogolcirrhosisesophageal and gastric varicesend

东台西瓜的品质特征及生产技术关键

江苏省东台市是全国最大的小果型大棚西瓜生产基地。东台西瓜品质好、质量优，先后获得全国冠军，中国名牌农产品和中国地理证明商标等称号，产品已畅销大半个中国，享誉大江南北，深受

期刊

东台西瓜品质特征栽培技术

彰显定性法与定量法内涵的教学策略——以电功率教学为例

电功率是初中电学部分的精华,也是初中物理的重点和难点。电功率无论在知识内容上还是规律公式上以及实验探究上,都能丰富并深化欧姆定律和串并联电路电压电流电阻规律,并为

期刊

定性法定量法电功率

复杂海况下水面无人艇分层危险规避方法研究

无人水面艇(Unmanned Surface Vehicles,USVs)是一种重要的海洋机器人,目前正被广泛研究并逐渐应用于实际。然而USV的自主航行问题仍严重制约其自主性能的提高,尤其是在复杂

学位

水面无人艇全程航迹规划远程危险规避近程危险规避近程自适应危险规避

2-D连续离散系统的广义KYP引理及其应用

2-D(two-dimensional)连续离散系统是混杂系统和2-D系统一个重要的研究方向,在诸如迭代学习过程、车辆排的扰动控制以及水渠灌溉等很多工程领域都有着广泛的实际应用。该系统

学位

2-D连续离散系统广义KYP引理稳定有限频正实控制有限频故障检测

小型化光纤表面等离子激元共振生物传感器系统的研究

表面等离子激元共振(Surface plasmon resonance, SPR)技术具有灵敏度高、样品免标记和无需纯化、重复性高、实时动态监测等优点,被广泛地应用于生化检测和分析、药物筛选、

学位

表面等离子激元共振光纤传感器生物传感传感器系统

针对含有概念漂移问题的增量学习算法研究

与本文相关的学术论文