集体理性约束的Agent协作强化学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：yindiantiffany

【摘要】

：

将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集

【作者】

：

吴士泓李德华潘莹

【机构】

：

华中科技大学图像识别与人工智能研究所

【出处】

：

计算机工程与应用

【发表日期】

：

2010年17期

【关键词】

：

多AGENT系统强化学习集体理性 multi-Agent systems reinforcement learning collective ratio

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。

其他文献

结合视觉及方向尺度LoG算子的肺节点图像增强

针对医学X胸片影像对比度低,视觉效果差,不利于临床医师对X胸片肺部节点进行检诊的问题,在对X胸片肺部节点图像特点以及传统拉普拉斯高斯图像增强算子深入分析的基础上,提出一种基于视觉及方向尺度拉普拉斯高斯(Laplace of Gaussion,LoG)算子的医学X胸片肺结节增强方法。该方法是在传统拉普拉斯高斯滤波算子的基础上,通过对不同方向纹理引入不同算子尺度,并考虑视觉因素,进行视觉矫正实现的。实

期刊

X胸片肺结节图像增强视觉方向尺度拉普拉斯高斯chest X-rays lung nodules image enhancement visua

樊纲：2012年中国经济增长8.5%以上

日前，作为中国改革基金会国民经济研究所所长、北京大学汇丰商学院教授，樊纲面对在场的2000多名学员，从宏观经济的角度，对国际和国内的经济现状作了详尽的分析。

期刊

中国樊纲国民经济北京大学宏观经济研究所基金会

未转移所有权且不知情时被骗去财产如何定性

[案情]李某在一网吧认识了素不相识的张某,两人在一起玩了整夜。第二天,李某谎称自己要买一辆电动自行车,约张某一同去看。李某以自己手机没电为由骗取张某手机使用,然后带张

期刊

不知情所有权财产电动自行车电动车张某手机案情

框架式地形建模在城市虚拟仿真中的应用

在城市地形建模过程中,由于目前所采用的数据源的高程点密度不能达到高精度地形建模的要求,往往需要内插高程点。提出了基于GIS的"框架式地形建模"方法,在一定条件下不用加密高程点,就可以构建高精度的地形模型。以山东师范大学校本部的地形建模为例,采用基于Multigen Creator/Vega虚拟现实软件平台进行了实证研究,实验结果表明利用该方法可以满足高精度仿真对于地形建模的要求。

期刊

虚拟现实地形建模地理信息系统框架virtual reality terrain modeling Geographic Information Sy

适用帮助犯罪分子逃避处罚罪的问题及对策

一、其主观目的是否属于使犯罪分子“免受”追究?帮助犯罪分子逃避处罚属直接故意犯罪．行为人的主观目的在于帮助犯罪分子逃避处罚．逃避处罚除当然地具有使犯罪分子“免受”追

期刊

追究犯罪分子帮助犯主观目的适用行为人直接故意处罚问题及对策涵义

开拓农村市场应有创新思路

扩大内需,开拓农村市场,已引起各级政府的重视.积极开拓农村市场不仅是扭转困难局面的当务之急,同时也是政府的一项长久之计.供销社是为"三农"服务的合作经济组织,因此,开拓

期刊

供销社农村市场农资流通经营策略创新思路

基于队列时延检测的链路可用带宽流量调度方法

为有效提高链路带宽资源的利用率和减小数据传输时延,首先分析了链路中数据传输时延的特点,提出一种基于队列时延检测的链路可用带宽流量调度方法,该方法研究了在调度流量与

期刊

流量调度队列分析时延间隔带宽分配traffic scheduling queueing analysis delay interval bandw

任伟光 HTC的“智能”战略

在这个手机集合了更多功能的时代，智能机成为一种趋势和时尚。像所有转型时期一样，这样的历史时机会促成许多新型高科技企业的成功，也会危及原有模式下龙头企业的产业地位。如今

期刊

智能机高科技企业产业地位龙头企业多功能手机历史

连续值命题逻辑中公式的条件相对重言度理论

基于Lukasiewicz命题逻辑系统提出一般性的赋值密度函数,定义了公式的概率真度、条件概率真度的概念,引入了公式的条件相对Γ-重言度,并给出了若干性质。利用公式的条件相对

期刊

赋值密度函数条件概率真度条件相对Γ-重言度条件相对Γ-相似度伪距离valuation density function conditional pr

一般城市Voronoi图的结品生成

城市Voronoi图是以L1平面上任意两点之间花费的最短时间为距离的一种新型Voronoi图，它要求交通网络路线仅为水平或垂直方向。然而，客观世界中存在大量曲线交通路线。为了使城市

期刊

城市Voronoi图一般城市Voronoi图结晶生长city Voronoi diagramcity Voronoi diagram with gene

集体理性约束的Agent协作强化学习

与本文相关的学术论文