论文部分内容阅读
强化学习集成了人工智能与最优控制的基本思想,为求解大规模随机决策、优化和控制问题提供了一种有效方法,正逐渐引起人工智能、自动控制、运筹学、经济管理等各领域的研究兴趣.在现有马氏决策和强化学习理论已有成果的基础上,该文研究了平均马氏决策问题的递阶强化学习;在半马氏过程灵敏度分析的基础上,研究了半马氏决策过程的表现-评判(Actor-Critic)算法,并对可重入排队网络的灵敏度分析问题进行了研究.