论文部分内容阅读
对于一般的MDP模型,本文证明了对任意一族依赖于历史的随机策略所导致的策略测试类的任意凸组合,存在一个随机马氏策略所导致的策略测试,使得相应于它们的平均期望目标,折扣目标以及期望总报酬目标的值均分别相等,推广了E.B.Dyukin和Yushkevich[1],M.Puterman[2],E.Feinberg和A.Shwartz[3],R.Strauch[4],以及董泽清和宋京生[5]等相应的所有结