部分可观测Markov决策过程相关论文
云计算服务组合是从众多分布在不同云计算平台上的远程服务中选择合适的组件服务来构建可伸缩的松耦合的增值应用.传统的服务组合......
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(PO......
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种......
把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解......
提出了一个新的效用聚类激励学习算法U—Clustering。该算法完全不用像U—Tree算法那样进行边缘节点的生成和测试,它首先根据实例链......
增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增......