论文部分内容阅读
能否在不确定、动态环境下正确地决策,是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程(Partially Observable Markov Decision Processes,POMDPs)为自主机器人在不确定性环境中的规划问题,提供了一个极富表达力的数学框架。POMDP现已在无人驾驶、机械臂操作等自主机器人任务中得到成功的应用。现有的处理连续空间POMDP规划问题的方法常使用离散化来求解策略,该方法计算量大,效率偏低。本文为了解决连续空间中的POMDP规划问题,提出三种新的算法:(1)针对连续状态空间中现有算法使用离散化,将连续的状态离散化为网格,导致算法性能低下的缺陷,提出一种面向连续空间POMDP问题的高效算法——GPG算法。该算法在状态空间和相应的信念空间中抽样,同时使用广义策略图和抽样最大化方法,将算法推广到连续观察和连续动作空间。实验结果表明,GPG算法收敛速度快且能获得更优的策略。(2)针对连续状态空间中蒙特卡罗值迭代算法所得策略图会随着时间迅速增长,算法性能急剧降低的问题,提出一种优化的连续状态蒙特卡罗值迭代算法——OMVCI算法。该算法优化新增结点、裁剪被支配的和冗余的结点,获得结构更加紧凑、性能更加优异的策略图。(3)针对连续状态大规模观察空间传统算法启发式搜索效率低,收敛速度慢的问题,提出一种连续状态大规模观察空间的银杏叶搜索算法——GLS算法。为了提高收敛速度,在启发式搜索阶段中,提出了对较大值的结点使用“探索”的方法。同时根据已有的先验知识,自适应调整“探索”与“利用”的比例。该方法可以保证更新效果相同的情况下,减少更新次数,节省大量计算时间,提高算法性能。从理论上分析了算法的收敛性,并通过实验验证算法收敛速度快、收敛效果好的特性。