论文部分内容阅读
联盟形成的收益值是模糊和不确定的,难于计算,而联盟收益值在成员变化的情况下的计算就更为复杂。Lerman等人实现了动态联盟Agent进出联盟的管理方法,Chalkiadakis则研究了不确定情况下联盟的再励学习,但没有涉及联盟成员变化情况下的收益值动态性。论文定义了带折扣率的估计核,给出一种再励学习算法来计算联盟成员变化后的收益值.深化了Chalkiadakis的工作。实验结果验证了该方法的可行性和正确性。