论文部分内容阅读
多agent环境下agent的最优策略取决于其他agent的策略,这使得学习目标不易被清晰的定义.基于客观观察行为建模的方法并不保证学习策略最终收敛.本文提出了基于内省推理方法的多智能体环境下智能体高效在线学习方法,将基于对手模型的客观观察行为与基于换位思考推理的主观意图推测结合起来.仿真结果证实了算法在电子市场定价中的有效性.