基于气味奖励引导的Q-learning环境认知方法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:mywindjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q-learning作为一种无模型的值迭代强化学习算法,被广泛应用于移动机器人在非结构环境下的导航任务中.针对Q learning在移动机器人导航中环境探索和利用存在矛盾关系导致收敛速度慢的问题,该文在Q-learning算法的基础上,受啮齿类动物可以利用嗅觉线索来进行空间定向和导航的启发,提出一种基于气味奖励引导的Q-learning环境认知策略.该算法通过改善Q-learning中的动作选择策略来减少对环境的无用探索,在动作选择策略中融入了环境气味奖励的引导,并提出了嗅觉因子来平衡动作选择策略中Q-learning和气味奖励引导的权重关系.为了验证算法的有效性,在Tolman老鼠实验所用的迷宫环境中进行了仿真实验,动态仿真结果表明,相比Q-learning算法,基于气味奖励引导的Q-learning算法在环境认知过程中,可减少对环境的无用探索,并增强对环境的认知学习能力,且提高算法的收敛速度.
其他文献
Permafrost in Northeast China is highly sensitive to climate warming.Permafrost degradation significantly affects forest and vegetation ecosystems,as well as th
在全球气候变暖背景下青藏高原由于其较高的海拔导致其气候变化更为剧烈,海拔高度的不同必然导致温室气体通量发生变化。通过对位于青藏高原不同海拔高度处的泥炭地青海湖流域小泊湖湿地、若尔盖高原沼泽湿地、拉萨河谷、隆宝滩湿地和纳木错湖流域温室气体生长季排放通量的对比分析发现,高海拔区冻融过程更为剧烈,青藏高原泥炭地CO2和N2O生长季排放通量随海拔升高呈增加的趋势;CH4生长季排放通量受气温变化的影响,随海拔的升高呈递减的趋势。青藏高原泥炭地CO2和CH4
新阶段面对中美科技脱钩和大博弈主导的国际百年变局和以国内大循环为主体、国内国际双循环相互促进的新发展格局,必须按中央的部署,坚定不移贯彻新发展理念,加强对各领域发展的前瞻性思考、全局性谋划、战略性布局、整体性推进。科技“揭榜挂帅”制度作为科技创新制度新安排,有利于突破既往科技攻关制度的不足,不拘一格“选帅组阁”,攻克关键核心技术难关,摆脱“卡脖子”技术的掣肘,近年来日益受到全国上下的关注和重视。一些学者开展了深入研讨,中央和地方政府部门开始了试点。本文综述其国内研究进展、实践案例,得到启示,并给出若干建议
为提升省级应急测绘保障能力,形成省区资源共享节点,以甘肃省应急测绘数据库系统建设为例,通过对省级应急数据库系统的建设方法进行研究,形成了包含应急基础地理信息、应急专题、应急事件等数据库组成的应急测绘数据库群,开发了包含应急数据库管理、应急数据服务与应用等功能模块的数据库系统。该系统已在甘肃省应急测绘保障工作中投入使用,极大地改善和提高了甘肃省应急测绘能力与服务水平。
应用时域有限差分法计算阶梯状声扩散体的反射声场,通过理论计算结果和全消声室测量结果对比证明了计算方法的有效性.在近似远场条件下,传声器、声源与扩散体之间的距离对扩
Climate change and ozone depletion are topics challenging the world over and are both attributed mainly to human activities,particularly emissions of ozone depl
农作物分类与识别是开展农作物的长势、产量、灾害等相关信息监测的基础,对确保粮食安全、发展社会经济、制定农业政策以及保护生态功能等有重要作用。本文以“原阳大米”之乡河南省原阳县为研究区,基于谷歌地球引擎(Google Earth Engine)云平台,利用随机森林(Random Forest)机器学习算法,通过地面实测数据比较分析了Sentinel-1雷达数据和Sentinel-2光学数据在原阳县秋季农作物分类中的精度。结果表明:多时相的Sentinel-1雷达数据的加入能大大提高农作物的分类精度。基于
在减少温室气体排放、缓解空气污染的需求背景下,减少化石能源消耗、增加核能在一次能源消耗中的占比,已成为科技界和产业界的共识.清华大学聚焦居民供热、工业蒸汽、海水淡
Wireless sensor technology plays an important role in the military,medical,and commercial fields nowadays.Wireless Body Area Network (WBAN) is a special applica
通过对于VR虚拟现实交互技术的学习研究,结合全球VR硬件软件技术、电脑硬件技术、5G通讯的迅猛发展,通过VR虚拟现实交互技术与民用无人机技术相结合,应用于影像采集,具有非常重要的现实意义。