论文部分内容阅读
近年来,伴随着云计算技术和人工智能技术日益成熟和广泛应用,信息科技逐步向物联网时代进行转变,人类社会的生活方式迎来了全新的变革,进入了万物互联的智能社会,万物具有感知能力,普通的物理设备不只是“冷冰冰的机器”,它拥有类似人类的感知能力和思维方式。与此同时,随着5G高速时代的到来,物联网设备也产生了前所未有的海量数据,到2025年,全球的数据量预计将会增至175泽字节(ZB)的数据,对这些数据的集成和挖掘,对社会的发展发挥着重要的作用。集成学习是一种强而有力的技术,可以训练和组合多个基学习器,目的是提高整体的性能,比基学习器拥有更好的泛化能力,而现有的集成学习算法已经无法高效处理如此海量的数据(如随机森林),其中每个基学习器的模型都基于整个数据集进行采样和训练。这样会导致额外的计算成本,在大数据领域是不切实际的。为了获得更高的效率,本文提出了一个分散式集成学习框架,特别地,利用分布式边缘计算来整合集成学习技术。在该框架中,利用网络边缘节点来处理、分析和建立分类和预测模型。一个显然的待研究问题是如何去实现限制每个基学习器访问一个较小的子数据集与实现高精度之间的平衡。本文利用边缘计算系统的模式,基于集成学习的思想,设计出高效的(低计算成本)和准确的方法。本文利用软件代理在数据源上的协作和自主能力,选择一些边缘节点(学习器)来帮助解决复杂的问题。本文使用集成方法为多个学习器训练模型,然后将它们组合在一起。换句话说,本文受益于多智能体(agent)系统和集成学习的方法,其中集成方法中的每个基学习器被视为一个agent,多个基学习器形成一个多agent系统。因此,本文提出了一个多智能体集成(Multi-agent Ensemble System,简称:MAE)系统框架,旨在降低计算成本的同时获得可靠的集成学习效率,其中数据被分发给多个基学习器,他们通过特定的交互机制交换数据,以提高集成后的预测能力。该方法是针对20个现实世界的数据集和几个知名的现有集成学习算法进行评估的。实验结果表明,MAE通过分散式的方式处理数据集和样本交换获得了较高的准确性,大量减少了计算成本。所提出的方法在最先进的集成方法中表现出了竞争性能,而基学习器仅使用了一小部分样本,从而显著降低了计算成本。集成系统将模型训练和测试工作委托给几个独立的agent。初始时,应用聚类方法将输入数据集划分为多个互不相交的簇并把簇中的样本分配给对应的agent。在开始训练模型时,允许agent交换本地数据集的部分样本。每个agent的初始样本集可能分配不均,这保证了agent的多样性,但随着交互的继续,agent将从交互的过程中改进模型,因而保证了agent的准确性。采用学习算法完成模型训练后,在预测阶段,多个边缘节点的模型将投票产生预测结果。MAE算法主要有以下特点:1)速度快,高性能:现存的集成学习算法基于对整个数据集进行采样或者高迭代次数的训练模型都会产生较高的计算成本,MAE算法以分布式和增量式的方式访问和处理数据源,能够大幅降低计算成本,可以更好的处理更大的样本空间,拥有较快的计算速度。2)多样性和交互性:目前集成学习算法的基学习器训练模型都局限于本地数据集,学习方式单一,MAE算法中的所有agent之间存在一种信息交互方式,旨在提高基学习器的准确性和多样性,以增强集成的学习能力。3)灵活性和扩展性:MAE算法将重要的集成条件从方法中解耦,分为多样性增强阶段,准确性增强阶段,集成组合阶段。可以方便地调整每个阶段的方法,以适应不同的计算需求,整个算法易于扩展,具有较强的灵活性。