论文部分内容阅读
随着大数据时代的到来,大规模数据处理和学习成为了学术界研究的焦点,也为工业界设计更优质的应用和服务带来可能。增量学习通过增量式地学习新数据、更新已有模型的方法实现大规模数据的处理,也受到了研究领域的广泛关注。然而,概念漂移,即数据联合概率分布发生变化的现象,往往会严重影响增量学习的性能,给增量学习在真实学习任务中的应用带来了巨大的挑战。为了处理增量学习中的概念漂移问题,本文提出了两个针对概念漂移问题的增量学习算法,并设计一个并行化学习框架。主要工作包括:首先,为了使用增量学习中的历史知识辅助概念漂移的处理,本文提出了一种基于差异性模型选择和知识迁移的概念漂移处理方法(DTEL)。本工作假设在概念漂移的情况下,历史数据中的知识和当前知识间存在相关性。因此,可以通过知识迁移的方式,一方面提取出历史数据训练所得模型(即历史模型)中的有用知识,另一方面去除其中和当前数据分布不一致的知识。通过这种方式利用历史知识辅助增量学习对概念漂移的处理。此外,由于存储空间的限制,仅有限数量的历史模型可以被算法所保存。对此,本工作提出一个基于差异性的模型选择方法。通过维护差异性较大的一组历史模型,为接下来的学习步提供尽可能多的知识,以更大的可能性为知识迁移提供较好的起始解。为了验证本算法的有效性,本工作使用了多组人造数据和真实数据进行实验,其中人造数据涵盖了五种不同的概念漂移类型、真实数据涉及了四个不同的应用领域。实验结果表明基于差异性模型选择和知识迁移的方法能够有效提升增量学习对于概念漂移的处理能力,且本算法在不同类型的概念漂移上均有较好的表现。其次,为了处理类演化类型概念漂移,本文提出了一种基于类的集成学习方法。类演化是一个特殊类型的概念漂移问题,指在学习过程中类出现或消失的现象。不同于已有工作中突变式类演化的情况,为了处理真实应用中的类演化问题,本工作将类演化建模为一种逐渐变化的过程,并提出了一个基于类的集成学习算法(CBCE)。通过新建基模型和抑制基模型的使用来达到处理类演化类型概念漂移的目的。考虑到渐变式类演化导致的动态类不平衡问题,本工作提出一个动态数据下采样的方法,并应用在各个基模型中。类演化类型概念漂移主要包括三种不同的基本元素,即类出现、类消失、以及消失类再次出现。本工作选用了人造数据和真实数据来表示各种的类演化场景,用以对基于类的集成学习算法进行综合的验证。实验使用两个真实数据集对类演化问题进行模拟,使用社交网络数据作为真实数据进行测试。实验结果表明本算法能够有效的对类演化类型概念漂移进行处理,且能有效处理渐变类演化带来的数据中动态类不平衡问题。最后,为了将增量学习算法在大规模数据中进行应用,本文设计并实现了一个针对概念漂移问题的并行化增量集成学习实现方法,用于提高增量学习中集成学习模型的学习和使用效率。在工业界真实应用中,大数据的学习中不仅要求算法具有较高的准确率,而且应该满足高效执行的要求,以适应数据的快速增长。可并行性是设计并行系统的基础。在增量学习中,集成学习模型具有很明显的可并行性。为了提升算法执行的时间效率,本工作对概念漂移处理中的集成算法进行分析归纳,总结出一个并行执行实现方法,以辅助集成学习模型的并行化实现。此外,本工作对DTEL和CBCE算法在此集成学习并行实现方法中进行实现并测试。测试结果表面并行实现后的DTEL算法和CBCE算法增量学习中具有较高的加速比,验证了此并行实现方法的有效性。