基于图模型的分布式协同学习

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ppc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统(Multi-Agent System,MAS)是分布式人工智能(Distributed Artificial Intelligence,DAI)的一个重要分支。多智能体系统是多个智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的,易于管理的系统,从而实现个体之间的冲突消解与协同合作。分布式控制方法具有个体局部交互、成本低、鲁棒性强的优点,因而多智能体系统通常采用分布式控制的方式来实现系统协同功能。另一方面,图模型可以简洁有效地表示多智能体系统中复杂的依赖关系。将每个节点代表多智能体系统中的个体,图模型可以有效地表征局部状态观察、行为选择与奖赏接收(系统的目标是最大化所有节点的奖赏之和),因此基于图模型的分布式控制对于多智能体系统研究具有重要的意义。基于试错的学习行为是智能体与环境进行交互的主要方式之一,本文主要研究基于图模型的分布式协同学习,将图模型的关系表征能力与个体的局部学习交互有效的结合起来,从而以最小的计算代价实现最优或者近似最优的系统功能。本文主要包括以下两个研究内容:本文首先研究了基于分布式值函数(Distributed Value Function,DVF)的多智能体协同学习方法。该方法允许每个智能体将自己的值函数(所有节点未来奖赏的权重和的预估)发送给其邻居节点,这样不仅考虑了直接邻居节点对智能体行为选择的影响,同时还考虑了其他节点对智能体的间接影响;由于每个节点在系统中的位置重要性不同以及在学习过程中表现的好坏都会对其邻居节点产生不同的影响。本文提出了自适应权重函数的DVF,并将此方法与现有的分布式强化学习方法在电力系统电压分配问题中进行比较,验证了该方法的有效性。本文的第二个工作是研究了基于回报传播的分布式协同学习方法。该方法将稀疏协同学习方法与协同图中的消息传递算法相结合,利用相应的协同图将全局值函数分解为局部值函数的线性结合,并通过变量消除算法或者Max-Plus算法来计算最优联合行为,从而快速地找到使系统整体奖赏最高的最优策略或近似最优策略。本文实现了基于回报传播的分布式协同学习方法,并将该方法应用于单状态问题和分布式传感器网络问题中,验证了该方法的有效性。
其他文献
利用CAP方法反演了2010年6月5日阳曲Ms4.6地震震源机制解,得到震级Mw为4.5,节面Ⅰ走向213°、倾角47°、滑动角-161°,节面Ⅱ走向109°,倾角76°,滑动角
针对土工动力离心模型试验中模型与原型在动力响应和动力破坏模拟两个不同层次的相似程度。首先分析总结离心模型试验在动力响应模拟、动力破坏模拟两个方面的研究发展现状;然
期刊
利用中国数字地震台网(CDSN)兰州台短周期数字地震仪的记录资料,研究了1995年甘肃永登MS5.8地震前后,发生在永登地区小地震的S波波谱参数,获得以下结果:(1)在永登地震前2年左右,该地区小地震的SC波波谱拐角频率fC逐渐下降,由原来的2.4Hz下降到1.8Hz.(2)直达波Sg和地壳内中间层反射波SC的波谱高频衰减斜率比值γ则先逐渐上升,在临震前16个月逐渐下降,在下降过程中发生了永登地震
期刊
《小学数学课程标准》指出:数学教学的基本出发点是促进学生全面、持续、和谐地发展。要想在有限的教学时间内让学生的各项能力都能够充分发展,就需要教师提高课堂教学的有效性,用生活化的课堂教学去启发学生,激活学生的思维。我们知道,学会数学知识并不难,但是如果能将数学知识灵活运用到生活当中去,就需要学生有良好的思维能力和应用能力。学会了思考问题的方法,将是学生终身受用的宝贵财富。因此,我不断反思、实践、总结
研究与开发产品管道的状况是衡量制药企业持续高增长率发展的重要指标之一。而最具影响的是处于开发最后期和准备提出申请上市的产品。PB公司去年就十大研究领域的最新进展作