论文部分内容阅读
自主机器人地图学习和探索对于理解和建立智能机器人来说是十分重要的。从心理学领域得到的经验性和计算性的研究表明,计算科学和神经系统科学已经取得了巨大的成功。这一观点使得地图学习、探索、命名、定位、地图构建以及行为选择过程中的三个主流问题的理论研究成为了可能。我们引入两个基准模型来分析地图学习和探索的基本内容。棋盘迷宫是一个随机划分的环境。自主机器人探索过程的好坏程度可以通过机器人的感知预测的能力来衡量。这种衡量标准并不需要了解机器人内在的表示方法。此外迷宫棋盘可以简化为传统的多臂赌博机模型(multi-armed bandit),通过该模型可以分析行为选择问题的很多细节。其探索过程的好坏程度可以通过平均奖赏的估计误差来衡量。地图学习和探索过程是模仿马尔可夫决策过程(POMDP)进行的,并将其应用在有内在联系的贝叶斯网络中。其中环境地图用观测概率来表示,并储存在生成模型的权重中。其信任状态通过贝叶斯滤波器加以追踪。感知输入的分布是通过生成的模型预测的。通过在线自适应乘方梯度下降的规则可以减小预测误差,定位和传感器之间的地图是事先已知的。在n臂赌博机模型中,从总体均方误差的意义上来说,最优探索策略是使增益最大化的探索策略。无论是总体均方误差还是所期望的0/1损失,理想增益最大化探索策略的模型复杂度O(n)与基于计数平均和基于误差探索策略同样小。对于奖赏方差未知的实际情况来说,实际增益最大化探索策略是通过使用奖赏方差置信区间的上界来得到。增益最大化策略是包括基于计数平均和基于误差探索策略在内的大量探索策略的一般准则,通过归纳总体均方误差,可以发现这两种探索策略是由基于不同总体误差的增益最大化探索策略产生的。可以将增益最大化探索过程视为对不同选择奖赏之间的学习,并且同时从理想情况和实际情况出发来推导增益最大化选择策略。通过简单的线性变化,与传统的诸如区间估计、ε-greedy、置信区间上界等方法相比,基于增益最大化的探索策略在固定数据集中误差最小。