强最优策略相关论文
在本文中,主要研究马尔科夫决策规划机器更新过程的平均目标“弱最优”“准强最优”“强最优”问题。文中把按数学期望意义下“平均......
对MDP平均模型,本文提出了准强最优与强最优标准问题,首次讨论了非时齐MDP平均模型,在状态空间可数而行动集有限和适当条件下,得到......