基于贝叶斯方法的多Agent强化学习

来源 :河北理工学院学报 | 被引量 : 0次 | 上传用户:kaonub
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解.然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机.在多agents系统中,由于agents之间的协作使该问题更加复杂.为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理.同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性.
其他文献
利用熔融-分相法制备了以多孔玻璃为载体的纳米TiO2光催化材料,以甲基橙为被降解物,研究了不同条件下的光催化活性,并与用溶胶一凝胶法制备的纳米TiO2的光催化活性进行了对比
本文论述了低压电网中无漏电保护器存在的问题,同时详细地阐述了漏电保护器的选型原则,最后指出了人们对漏电保护器在家庭应用中可能存在的错误认识.
本文介绍了单相整流电路的谐波抑制方法和无源,有源功率因数校正方案。
法律具有明确性和严谨性,一方面要求法律概念尽可能的做到准确与严密,不能模棱两可,让人无所适从;但另一方面为了使法律条文适合更多案件的审判与囊括尽可能多的社会现实情况
为明确湘西州植烟土壤全钾含量分布特征,采集湘西烟区488个土壤样本,分析了其全钾含量丰缺状况、在不同土壤类型和海拔分别差异及空间分布。结果表明:(1)湘西植烟土壤全钾含量总
基于集对分析的新原理与新思路,在介绍集对分析的基本概念和联系度的有关运算后,定义了机械加工工艺的生产费用的联系数μ=a+bi或μ=a+bi+cj.给出了工艺成本集对分析的方法与
我国新建井筒所穿越的表土层越来越厚,急需提高井壁结构的强度,越来越多的井壁采用钢纤维高强混凝土。将影响该种井壁水平极限承载力的主要因素进行无量纲化,通过数值计算试
程序测试无疑是保证程序质量的关键步骤。提出新的程序测试类型:在编码过程中测试、系统性测试、自动化测试、测试台测试、目的性测试,并附以实例说明每种类型适用的情况。
“若不研究并解决新生代农民弃农问题,人口大国将面临无人种地境地。”今年全国两会上,以中国科学院、中国工程院资深院士联谊会理事会会长师昌绪为代表的15位两院院士联名建言
今年在深入开展党的群众路线教育实践活动中,从基层收集的意见与建议看,基层集中反映的一个问题就是上级机关多头管理、重复管理、制度重叠,工作整合与主动服务基层方面不够。这