论文部分内容阅读
B2B电子市场的定价问题是一个半学习半推理的连续决策过程,每个定价agent不是直接采用多agent学习算法下的均衡策略,而是根据博弈历史进行推理决策,并不断学习对手的策略。提出了基于内省推理方法的多agent环境下agent高效在线学习方法,将基于对手模型的客观观察行为与基于换位思考推理的主观意图推测结合起来。仿真结果证实了算法在电子市场定价中的有效性。