论文部分内容阅读
研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法思想基础上,提出了一种新的有限时段非平稳的Markov决策过程的强化学习算法,并用无完全模型的库存控制问题进行了实验.