论文部分内容阅读
这篇论文在波兰的空格为连续时间的 Markov 决定过程学习限制一般水准变化标准。把途径基于二,这份报纸证明变化最小化 optimality 方程的答案的不仅存在和一个变化的存在正规的最小的政策,而且二变化最小化 optimality 不平等的答案的存在和一个变化的存在不能正规的最小的政策。一个例子被给我们的条件说明所有。