【摘 要】
:
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集
【机 构】
:
华中科技大学图像识别与人工智能研究所
论文部分内容阅读
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。
其他文献
针对医学X胸片影像对比度低,视觉效果差,不利于临床医师对X胸片肺部节点进行检诊的问题,在对X胸片肺部节点图像特点以及传统拉普拉斯高斯图像增强算子深入分析的基础上,提出一种基于视觉及方向尺度拉普拉斯高斯(Laplace of Gaussion,LoG)算子的医学X胸片肺结节增强方法。该方法是在传统拉普拉斯高斯滤波算子的基础上,通过对不同方向纹理引入不同算子尺度,并考虑视觉因素,进行视觉矫正实现的。实
日前,作为中国改革基金会国民经济研究所所长、北京大学汇丰商学院教授,樊纲面对在场的2000多名学员,从宏观经济的角度,对国际和国内的经济现状作了详尽的分析。
[案情]李某在一网吧认识了素不相识的张某,两人在一起玩了整夜。第二天,李某谎称自己要买一辆电动自行车,约张某一同去看。李某以自己手机没电为由骗取张某手机使用,然后带张
在城市地形建模过程中,由于目前所采用的数据源的高程点密度不能达到高精度地形建模的要求,往往需要内插高程点。提出了基于GIS的"框架式地形建模"方法,在一定条件下不用加密高程点,就可以构建高精度的地形模型。以山东师范大学校本部的地形建模为例,采用基于Multigen Creator/Vega虚拟现实软件平台进行了实证研究,实验结果表明利用该方法可以满足高精度仿真对于地形建模的要求。
一、其主观目的是否属于使犯罪分子“免受”追究?帮助犯罪分子逃避处罚属直接故意犯罪.行为人的主观目的在于帮助犯罪分子逃避处罚.逃避处罚除当然地具有使犯罪分子“免受”追
扩大内需,开拓农村市场,已引起各级政府的重视.积极开拓农村市场不仅是扭转困难局面的当务之急,同时也是政府的一项长久之计.供销社是为"三农"服务的合作经济组织,因此,开拓
为有效提高链路带宽资源的利用率和减小数据传输时延,首先分析了链路中数据传输时延的特点,提出一种基于队列时延检测的链路可用带宽流量调度方法,该方法研究了在调度流量与
在这个手机集合了更多功能的时代,智能机成为一种趋势和时尚。像所有转型时期一样,这样的历史时机会促成许多新型高科技企业的成功,也会危及原有模式下龙头企业的产业地位。如今
基于Lukasiewicz命题逻辑系统提出一般性的赋值密度函数,定义了公式的概率真度、条件概率真度的概念,引入了公式的条件相对Γ-重言度,并给出了若干性质。利用公式的条件相对
城市Voronoi图是以L1平面上任意两点之间花费的最短时间为距离的一种新型Voronoi图,它要求交通网络路线仅为水平或垂直方向。然而,客观世界中存在大量曲线交通路线。为了使城市