论文部分内容阅读
从大规模数据集中进行学习是知识发现的典型任务,也是社会、经济、医学和工业等领域数据挖掘的基本问题之一。这些数据集正以惊人的速度产生和积累,促使大规模机器学习等新的研究问题的产生。该领域中大量现有的工作主要集中在如何寻找快速高效的并行处理解决办法。通常是将数据集分配到多个不同的处理单元进行局部处理,然后将所有处理单元的处理结果搜集到数据融合中心进行最后决策。然而,并行技术在某些情形下面临着重大挑战:首先,现实中数据集本身在物理、地理或逻辑上呈现分布式特点,不存在任何中央协调器。其次,考虑信息安全和隐私保护等方面的因素,客户在采用并行技术产品方面存在较大顾虑。因为这些数据集往往包含跟公司或个人紧密相关的敏感信息、金融记录、身份信息或个人健康状况等。这些信息一般是客户不愿意与并行系统直接分享的。因此,有必要研究基于完全分布式方式的新的学习算法。本文主要研究对等网络环境中的分布式合作学习问题。该问题可看作是学习行为分布在多个通过网络连接的处理器上,且通信限制在仅邻居通信情形的函数推理问题。本文涉及四个方面的工作:1.本文提出了随机权前馈神经网络分布式合作学习算法。算法设计过程中,首先将集中式学习问题转化为具有一致性约束的分离形式,然后引入零梯度和优化方法求解。该算法不存在融合中心进行数据收集和处理,各节点也不能获取网络拓扑结构的全局信息。结合代数图论和李雅普诺夫方法证明该算法收敛到将所有数据集进行集中处理的等价结果。算法形式简单,需要的计算和通信资源少,适合如无线传感器网络、人工智能和计算生物学等方面的潜在应用。这些应用涉及的数据集通常非常巨大且来源分散。2.本文将随机权前馈神经网络分布式合作学习算法扩展到事件驱动通信情形,提出了基于事件驱动的随机权前馈神经网络分布式学习算法。不同于时间驱动的通信方案,事件驱动的通信过程由驱动条件控制。每个节点仅当确实需要时才与其邻居进行信息交换,更适合通信资源有限的实际情形。在网络拓扑强连通和权平衡的条件下,选择合适的设计参数,该算法指数收敛。3.本文从分布式合作学习的角度,研究了针对一类不确定非线性多智能体系统的自适应神经网络输出反馈控制问题。该方案中,所有智能体系统动力模型相同,但执行不同的周期控制任务。即每个系统有各自不同的周期参考轨迹。本文针对输出反馈系统,提出了一种基于一致性的径向基神经网络分布式合作学习方案。该方案的主要优点在于,沿着参考轨迹的并集,所有的估计权重收敛到的它们公共最优值的一个小的邻域内。通过证明和仿真发现该方案相比传统神经网络学习策略具有更好的泛化能力。同时,控制方案也保证了跟踪误差的收敛性和闭环系统的稳定性。在假设网络拓扑无向连通的前提下,通过验证径向基神经网络回归向量的合作持续激励条件,给出了严格证明。4.本文提出了一种基于群体智能的分布式优化解决方案。该优化问题的目标函数为所有网络节点局部损失函数的平均。通过引入群体智能算法使所有节点合作寻找全局目标函数的最优值。该方法的主要难点在于每个群对全局目标函数未知,因而在迭代过程中无法对个体的质量进行直接评价。为克服这一困难,本文提出主要包含一致搜索、一致评价、群体演化和局部终止等步骤的总体解决方案。与基于梯度信息的数学方法相比,本文提出的方法能够求解的分布式优化问题无需对目标函数进行凸性假设,有助于分布式非凸学习问题的解决。