论文部分内容阅读
在状态空间和行动集均有限的条件下,[1-5]讨论了时间离散的、平稳的马氏决策规划的摄动模型.其中,[1,3,4]讨论了单摄动模型,[5]讨论了具有加权准则的摄动模型.[6,7]讨论了时间离散的、平稳的马氏报酬过程的摄动模型.但[6,7]仅考虑了摄动对最优值的影响,而没有考虑摄动对最优策略的影响.本文将讨论具有摄动的非平稳平均马氏决策规划和连续时问折扣马氏决策规划.rn