论文部分内容阅读
基于脑机接口的动物机器人系统,是以动物为载体,将外部控制指令转化为各种形式的有效刺激施加给动物大脑,从而直接干预动物的感受并控制其行为。随着实际应用的需求越来越迫切,精确有效的自动控制研究成为动物机器人发展的必然趋势。大鼠机器人导航问题研究一直是衡量自动控制效果的有效实验平台;同时,自动控制过程也具体展示了生物智能与人工智能的融合方式。 本文以大鼠机器人为研究对象,以自动导航问题为研究目标,提出了基于增强学习的自动导航方法,实现了未知环境中的空间奖赏地图重建,并最终实现动物机器人行为的自动控制,体现了智能融合的独特优势。其具体内容包括: (1)分析大鼠自身导航相关行为(觅赏行为和试错学习)与人工智能常用方法在本质上的相关性,以增强学习为框架,探究生物智能和人工智能融合。 (2)采用Q-learning和Actor-Critic方法构建导航行为的空间奖赏地图,融合生物智能后,使得机器增强学习算法具有更快的收敛性。 (3)提出分级电刺激奖赏的自动导航方法。在空间奖赏地图的基础上,将环境奖赏地图转化为分级的电刺激奖赏,依赖大鼠自身对不同强度电刺激奖赏的感知,加快其在空间探索中形成奖赏认知地图的过程,并自主学习导航任务,真正体现了人工智能和生物智能的相互融合。 此外,本文还通过对照大鼠在仅依赖生物智能的情况下完成导航任务的情况,进一步证明了智能融合方法对于完成自动导航任务具有明显的优势。