【摘 要】
:
人们对新鲜事物有强烈的探索欲和求知欲,受这种驱动内因的支配,人们获得新知识经验,这种驱动机制在心理学中被认为是内在动机,它的形成过程同样也是一种发育过程。将生物动机
论文部分内容阅读
人们对新鲜事物有强烈的探索欲和求知欲,受这种驱动内因的支配,人们获得新知识经验,这种驱动机制在心理学中被认为是内在动机,它的形成过程同样也是一种发育过程。将生物动机机制引入到机器人系统之中,以内在动机的强化学习为框架,通过机器人对环境的自主探索和认知,实现对机器人的定点平衡、直线行走平衡和转弯平衡的控制,使两轮机器人实现自主认知发育。论文主要研究工作有以下几点:首先,对认知发育机器人的发展历程和内在动机的研究背景进行了综述,在此基础上对内在动机和强化学习的关系进行了分析。利用基于内在动机的强化学习算法,引出内在动机强化学习算法的学习框架和强化学习内在动机的定义。其次,对两轮机器人分别进行了动力学和运动学的数学建模,并对所建模型的正确性进行了验证。提出了一种基于FRBF(模糊径向基函数)网络的内在动机驱动下的强化学习算法,并在两轮机器人的模型上进行了仿真,对仿真结果进行了分析,验证了该方法的可行性。最后,为了提高算法的收敛速度,对现存强化学习算法的问题进行了概述,并针对强化学习的报酬函数、探索策略及状态空间等进行改进,结合改进措施给出了内部动机驱动下的模糊空间的分层强化学习算法,并在两轮机器人的平衡控制中完成了算法的仿真。通过试验结果可知使用该算法能在较短时间内完成收敛。
其他文献
机器人的发育机制类似于人类大脑,对新的事物和环境有一定的认知学习能力。通过学习和经验的积累,使机器人具有类似于人的行为,体现了机器人自主发育的性能。研究了仿生模型
在目前全球能源危机和环境问题越来越严重的情况下,电动汽车越来越受到人们的青睐。电动汽车采用蓄电池组供电的电机驱动,它比采用内燃机作为动力的汽车有着诸多的优点,比如能源
在目前全球环境污染和能源危机日益严峻的情况下,纯电动汽车(Pure Electric Vehicle)以其绿色环保、低噪声、能源利用率高、便于操作等优点,越来越受到人们的青睐。国外电控系
锅炉一般工作于高温、高压、强腐蚀等恶劣环境,其自身工作特点决定着设备易受到损害,炉壁破裂酿成的事故破坏性极大。然而,针对锅炉的安全检查、实时监测技术却滞后于锅炉的
随着当今工业和科学技术的飞速发展,智能控制理论的研究也经历了由简单到复杂的过程。近十几年来,仿人智能控制在工业中也得到了广泛的应用。自行车是一个复杂的控制对象,用
随着Internet的迅猛发展,作为提高网络性能的重要手段之一的网络拥塞控制是网络的热点研究领域之一。拥塞控制的目标就是达到吞吐量的最大化、分组延迟的最小化、各用户之间
工业过程控制中广泛地存在着时滞现象,时滞过程的控制方法一直是控制理论研究的重要课题。本文主要研究在工业过程中得到大量应用的PID控制、Smith预估控制和内模控制,并在研究
目前煤矿安全监控系统主要以有线方式实现参数监测与信息传输,一旦有线网络发生故障或遭到破坏将会影响矿井安全生产。因此,井下通信系统迫切需要一种高效、可靠、适应性强、
信息技术和网络技术的迅速发展使得大量的知识蜂拥而至。如何有效地获取、整理、组织和共享知识,并最终充分利用知识成为越来越突出的问题。本文从可视化的角度对这个问题进行
各国经济化发展程度的一个重要指标为工业化水平,而钢铁总量成为了衡量一个国家工业化水平的重要指标,因此对于钢铁品质的要求也越来越高。钢铁成分复杂且钢铁的冶炼是在高温