论文部分内容阅读
随着科学技术的快速发展,网络化多智能体系统得到了学术界和工业界的广泛关注。其该系统的目的是通过智能体之间的协调合作以解决大规模复杂的任务。网络化多智能体系统是由多个智能体组成以及智能体之间相互作用而形成的网络系统。而且网络化多智能体系统通常具有协调性、分布性、自主性等特征。在网络化多智能体系统中,许多决策、学习和控制问题可归结为分布式优化问题。例如,通信网络中的资源分配问题、传感器网络中的估计与检测问题、机器学习和控制中的分布式学习与回归问题、多智能体系统中的分布式追踪问题与多智能体协调问题、智能电网中的最优控制问题等等。这些问题需要设计分布式优化算法。本文考虑网络化多智能体系统的分布式优化问题,其全局目标函数为网络中各个智能体的局部目标函数之和,并且每个智能体只知道的自己的局部目标函数。另外,每个智能体只能利用自己的局部信息以及从邻居得到的局部信息。本文研究网络化多智能体系统的分布式优化理论以求解分布式优化问题,主要完成以下研究内容:(1)作者考虑了网络化多智能体系统的分布式约束优化问题,其中每个智能体的代价函数是私密的。另外,假设网络拓扑是时变和有向的。为求解此优化问题,作者提出了一种全分布式的随机次梯度投影算法。但是,由于网络拓扑是有向的,故导致权矩阵可能不是双随机的。因此,作者采用权平衡技术以克服此问题。通过选择合适的步长,作者证明了所提算法是渐进收敛的一些最优解。通过分析,当局部目标函数是强凸函数时,所提算法的收敛速率为O(logT/T),其中r为迭代次数。此外,当局部目标函数是凸函数时,所提算法的收敛速率为O(logT/√T)。(2)作者考虑了网络化多智能体系统的分布式约束问题,其中每个智能体只知道自己的局部代价函数与约束集。但是,每个智能体不能提前获取自己局部约束集的信息,或者局部约束集由众多子集构成。为求解此类优化问题,作者采用随机投影技术将每个智能体的估计投影到它的约束集上,智能体之间的信息交互方式采用异步的广播通信协议,提出了异步广播的分布式次梯度随机投影算法。通过选择合适的学习速率,作者证明了所提算法是几乎处处收敛的。当学习速率恒定不变时,作者得到了所提算法的渐进误差界,其为智能体的估计值与最优值之间的期望距离。作者也建立了所提算法的另外一个渐进误差上界,其定义为全局目标函数在估计值的均值处与最优值处的值之差。(3)作者考虑了传感器网络的分布式参数估计问题,研究了扩散最小均方算法的性能,其中数据是量化数据以及网络拓扑是随机的,即数据在传输之前先将其量化,通信链路可能被随机地破坏。而且,其中传感器网络可认为是网络化多智能体系统的一个特定网络系统。为了对未知参数实现无偏估计,作者在量化之前添加一抖动(小噪声)到传感器状态上。因此,作者提出了一种量化信息与随机网络拓扑的扩散最小均方算法。此外,作者分析了所提算法的稳定性与收敛性,并且推导出了均方偏差和剩余均方误差的闭合表达式,此参数表征了算法的稳态性能。作者证明了所提算法的收敛性与量化数据以及随机拓扑无关。与此同时,作者也揭示了哪些因素可能影响所提算法性能,并且表明了量化是影响算法性能退化的主要因素。最后通过仿真实验验证了本文的理论分析结果。(4)作者考虑了网络化多智能体系统的分布式在线优化问题,每个智能体所分配得到的目标函数可能随时间动态变化的,而且这种变化只有各自的智能体在事后获悉。此外,假设网络是时变且有向的。为求解此优化问题,作者提出了一种分布式随机次梯度在线算法。然而,有向拓扑可能导致权矩阵是非双随机矩阵。为克服此难点,作者采用权平衡技术以克服有向拓扑引起的不对称性。通过选择合适的学习速率,当局部目标函数是强凸函数时,所提算法以概率1可达到对数的Regret界;当局部目标函数是凸函数时,所提算法以概率1可达到平方根的Regret界。实验结果展示了所提算法的性能。(5)作者考虑了网络化多智能体系统的隐私分布式在线优化问题,其智能体最小化局部凸代价函数之和,并且每个智能体期望保持各自的隐私。为求解此类优化问题,在时变有向网络化多智能体系统上,作者提出了差分隐私的分布式随机次梯度在线优化算法。作者使用差分隐私以保持参与智能体的隐私。作者证明了所提算法可保持差分隐私,而且当局部代价函数是强凸函数时,所提算法可达到对数的Regret界。当局部代价函数是凸函数时,所提算法也可达到平方根的Regret界。此外,作者揭示了所提算法的性能与隐私水平之间的权衡关系。本文主要研究网络化多智能体系统的分布式优化理论。另外,本文取得的研究成果对优化理论的发展具有一定的参考价值。