未知环境中主动探索策略研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:biti_wxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自主机器人地图学习和探索对于理解和建立智能机器人来说是十分重要的。从心理学领域得到的经验性和计算性的研究表明,计算科学和神经系统科学已经取得了巨大的成功。这一观点使得地图学习、探索、命名、定位、地图构建以及行为选择过程中的三个主流问题的理论研究成为了可能。我们引入两个基准模型来分析地图学习和探索的基本内容。棋盘迷宫是一个随机划分的环境。自主机器人探索过程的好坏程度可以通过机器人的感知预测的能力来衡量。这种衡量标准并不需要了解机器人内在的表示方法。此外迷宫棋盘可以简化为传统的多臂赌博机模型(multi-armed bandit),通过该模型可以分析行为选择问题的很多细节。其探索过程的好坏程度可以通过平均奖赏的估计误差来衡量。地图学习和探索过程是模仿马尔可夫决策过程(POMDP)进行的,并将其应用在有内在联系的贝叶斯网络中。其中环境地图用观测概率来表示,并储存在生成模型的权重中。其信任状态通过贝叶斯滤波器加以追踪。感知输入的分布是通过生成的模型预测的。通过在线自适应乘方梯度下降的规则可以减小预测误差,定位和传感器之间的地图是事先已知的。在n臂赌博机模型中,从总体均方误差的意义上来说,最优探索策略是使增益最大化的探索策略。无论是总体均方误差还是所期望的0/1损失,理想增益最大化探索策略的模型复杂度O(n)与基于计数平均和基于误差探索策略同样小。对于奖赏方差未知的实际情况来说,实际增益最大化探索策略是通过使用奖赏方差置信区间的上界来得到。增益最大化策略是包括基于计数平均和基于误差探索策略在内的大量探索策略的一般准则,通过归纳总体均方误差,可以发现这两种探索策略是由基于不同总体误差的增益最大化探索策略产生的。可以将增益最大化探索过程视为对不同选择奖赏之间的学习,并且同时从理想情况和实际情况出发来推导增益最大化选择策略。通过简单的线性变化,与传统的诸如区间估计、ε-greedy、置信区间上界等方法相比,基于增益最大化的探索策略在固定数据集中误差最小。
其他文献
溶液的折射率很大程度上是由溶液本身的浓度决定的,但是溶液的温度变化也会影响溶液的折射率值。在科学技术越来越发达的今天,溶液的折射率测量的精确度要求也越来越高,目前
随着“互联网+”时代的到来,智慧城市的概念应运而生,其中包括部分城市的市政设施智能监测报警系统。它是利用布设在各种市政井盖下的无线传感节点来感知井盖状态信息和井下
风作为一种可再生的清洁能源,在实际应用中受到越来越多的研究和重视。随着城市化进程的不断加速,风速传感器在观测原始风资料时受环境因素的影响越来越显著。因此,如何还原
基于光线追踪的三维场景渲染计算量巨大,应用光线追踪技术的好莱坞电影往往需要几个小时来渲染一帧画面,英伟达公司推出的OptiX光线追踪引擎通过使用图形卡并行计算可以实现
隐写与隐写分析是信息安全领域相互对抗的两种技术。现有的隐写分析算法大多都是通过高阶统计特征、图像像素之间的相关性来提取多维特征,然后根据这些特征来进行分类识别。
协同过滤算法如今已经广泛地应用在推荐系统领域,并很好地处理了爆炸式的信息过载问题。但是随着数据问题的复杂化,比如潜在的隐式数据特征难以捕获、数据集的稀疏性越来越高
为解决单位培训管理受地域和时间的限制、培训档案的信息检索不方便、档案资料安全性差、培训的全流程管理效率低等问题,同时实现培训管理规范化、流程化、规模化、标准化的
卫星雷达高度计能够获得全球的海面高度、有效波高和海面风速,除此以外还能对海冰和内陆进行测量。利用卫星雷达高度计测量数据对冰盖进行研究,对于研究全球气候变化具有重要
党的十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》,强调坚持马克思主义在意识形态领域
《论中书》乃北宋理学家程颐与其弟子吕大临关于《中庸》所言“中”、“性”、“道”等问题的书信来往。就其内容来说,程吕二者就“中”之含义、“中”与“性”、“中”与“