论文部分内容阅读
自主学习是人及智能生物一切认知行为的本质特征,是智能产生的根本来源。人及智能生物能够通过与环境的交互,渐进的提高认知水平,自主形成复杂的智能。如何赋予机器人这一认知发育机制、使其达到类似人及智能生物的智能水平是人工智能、认知科学及机器人学研究的重大课题。 本文旨在研究移动式机器人自主学习的认知发育机制,在认知科学、神经生理学及神经计算科学等相关理论的框架下,从仿生的角度出发,建立模拟人和动物进行联想学习(associative learning)特别是操作条件反射(operant conditioning)的认知模型,使机器人系统能够像生物系统那样,在自治地与环境交互作用的过程中,自组织的发育形成感知运动系统,渐进式的发育形成认知能力。 论文取得的主要研究成果如下: 一、基于操作条件反射原理的认知模型 操作条件反射是动物及人类的一种重要的学习方式。它反映了生物趋利避害、适应环境的本能。为模拟生物习得操作条件反射的过程,本文基于斯金纳操作条件反射理论构建了一种操作条件反射认知模型(Operant Conditioning Cognitive Model,OCCM)。OCCM是一种离散计算模型,主要包括:状态空间、动作空间、概率分布函数、可观测的状态转移以及仿生学习机制等要素。为了计算取向函数,模型给出了状态的“负理想度”的概念。文中还定义了基于OCCM概率分布函数的系统熵,说明了OCCM的递归式工作算法。 OCCM的核心特征在于模拟生物操作条件反射的仿生学习机制。本文从完整性、自组织性以及它与操作条件反射原理之间的关系等3个角度对学习机制的数学特性进行了分析和证明,证明随着认知进程的推进,最优动作的概率将趋近于1,系统熵将收敛至最小值。 应用该认知模型对斯金纳鸽子实验及维纳蠕虫实验进行了仿真模拟,实验结果证明该认知模型能模拟生物的操作条件反射机制展开学习。同时文中将OCCM与其他相似模型AOCA、IM-OCA进行了对比,证明OCCM的具有较快的收敛速度。最后,将模型应用于移动机器人的自主认知导航问题中,分别进行了2维仿真、3维仿真及实际物理实验,实现了机器人的自治避障导航,进一步的展示了模型的工程应用价值。 二、具有操作条件反射机能的人工感觉运动系统 操作条件反射本质上是“刺激”与“反应”之间联系的一种表现形式,而“刺激”与“反应”实际上暗含着感知与运动的内在关联。OCCM对操作条件反射的仿生还停留在功能仿生的层面上,没有联系生物神经系统结构从“感知运动的协调关系”这一层面上对操作条件反射进行解释。同时,OCCM在大状态空间下(如自主认知导航问题)的收敛速度也有待加快。为了追求更好的仿生效果及更快的收敛速度,本文对OCCM模型进行了改进,提出了一种具有操作条件反射机能的人工感觉运动系统模型ASSOCF(Artificial Sensorimotor System with Operant Conditioning Function)。 该模型基于前馈神经网络,主要包含感知层、隐含层及运动层三层神经元,其学习算法是一种奖励调节下的负梯度下降学习算法,运动层以“赢家通吃”的策略来完成动作选择。为了体现操作条件反射机能,模型中还包含了负理想度计算以及取向函数计算模块,以此参与调节神经元间的连接权值。 文中将模型应用于三种不同的实验任务中:操作条件反射实验反映了模型的操作条件反射式的认知特点;感知运动实验则证明了模型能够成功的模拟真实蠕虫的感觉运动系统,表现出类似的负趋光特性;自主认知导航实验进一步说明了模型在工程应用上的实际价值。同时,对比分析了其他模型(OCCM、Q-learning、AOCA、IM-OCA)与本模型的性能差异。对比实验结果说明,本模型较之其他模型收敛更快,概率变化曲线更加光滑,反映了本模型的学习过程更具稳定性。 三、基于Hebb学习机制的仿生认知模型 ASSOCF模型对人工感觉运动系统的仿生是功能性的,模型细节缺乏更多的神经生理学研究结论的支撑,例如突触联系权值的调整并不具有生物合理性(biological plausibility),从而降低了其仿生的意义和效果。 Hebb学习机制是神经计算科学中真正具有神经生理学依据的学习机制之一。为了构造一种更贴近真实生物的认知模型,本文结合多项神经生理学研究成果,将Hebb学习机制引入到认知模型中,同时融入三级记忆模型,构造了一种基于奖励调节Hebb学习机制的仿生认知模型CMRMHB(Cognitive Modelbased on Reward-Modulated HeBbian learning mechanism)。 模型的特点表现在:首先,模型基于多项神经生理学研究成果。Hebb学习奠定了模型的生物合理性基础。同时,模型加入了以多巴胺为代表的神经调节作为第三方因素,实现了基于奖励调节的Hebb学习机制。在权值的表达上,模型引入了对数优势比,符合生物实际。此外,模型融合了Atkinson的三级记忆模型,使得整个模型仿生意味更加明显。其次,本模型是自组织、自学习的。模型所采用的学习机制属于无监督学习。模型仅仅通过与环境的互动反馈,就能自动的发生改变,形成新的神经网络结构,从而完成学习。模型的这一特性描绘了认知水平自主发育的过程,也为智能的涌现提出了一种解释。第三,本模型揭示了联想学习的统计学特征。宏观层面上看,本模型实际上是通过智能体不断的尝试,发现了动作与奖励之间的关联程度。这种关联程度实际上是一种统计规律,它反映了事物间的因果关系或逻辑关联。从这个意义上说,本模型表现出了统计学习的特征。 本文阐述了CMRMHB模型的结构设计,描述了其工作流程及学习算法,分析了学习算法的数学特性,从而证明了模型的收敛性。文中应用模型对联想学习的两个经典动物实验(巴甫洛夫狗实验、斯金纳鸽子实验)在实物机器人上进行了复现,以统一的形式解释了两种学习现象。同时,实验结果也为桑代克三大学习定律中的效果律与练习律提供了例证。最后,将模型应用于移动机器人自主认知导航问题,物理实验及仿真实验结果证实了模型的合理性。文中还对相似模型(Q-learning、AOCA、IM-OCA)进行了比较。对比实验结果显示,CMRMHB较之其他模型收敛速度更快,具有类似人及动物的认知能力。