信度状态相关论文
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA.Q.learning算法来求解带有这种不确定性的POMDP问题近......
把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解......