论文部分内容阅读
人或动物的诸多技能或行为是在其神经系统自学习和自组织的过程中渐进地形成和发展起来的,理解和模拟人和动物神经系统内在的学习和组织机制,并将这种机制赋予机器,是控制科学、人工智能和机器人学研究的重要课题。操作条件反射(Operant Conditioning)机制是人和动物神经系统内在的重要学习机制,人和动物的运动平衡控制技能是基于这种机制渐进的形成、发展和完善的。
本文模拟人和动物的操作条件反射机制,研究两轮自平衡机器人自主学习运动平衡控制技能的问题,取得了以下主要成果:
第一:Skinner操作条件反射自动机的设计
本文在随机概率自动机的理论框架中,基于Skinner的操作条件反射理论,建立了一种操作条件反射模型,称为Skinner操作条件反射自动机(SkinnerOperant Conditioning Automaton, SOCA)。SOCA自动机是一个七元组,包括:1)有限状态集合;2)操作行为集合;3)映射集合-随机“条件-操作”映射集合;4)状态转移函数-意味着操作产生的后果;5)取向单元-定义取向性函数,规定SOCA自动机的期望状态;6)操作条件反射单元-利用取向单元提供的取向性信息,调节其学习机制,改变各操作行为的选取概率;7)操作行为熵-衡量SOCA自动机的自组织程度。SOCA自动机的主要特征在于模拟生物的操作条件反射机制,具有仿生的自组织功能,包括自学习和自适应功能,可用于描述、模拟、设计各种自组织系统。论文对SOCA自动机进行了理论分析,从理论上证明了SOCA自动机的操作条件反射学习机制的收敛性,即:最优操作出现的概率随学习进程趋于1,操作行为熵随学习进程收敛至极小。论文将SOCA自动机应用于两轮机器人的运动平衡控制,SOCA自动机的状态集合用于描述机器人的倾角和倾角速度,操作行为集合用于描述施加到机器人左右轮电机上的控制信号。初始状态下,机器人不具备运动平衡的能力,操作行为集合中各操作的选取概率是均等的,随着学习的进行,最优操作的选取概率逐渐增大,操作行为熵逐渐减小,大约进行25轮训练后,最优操作的选取概率渐趋于1,操作行为熵渐趋于极小,机器人的运动平衡能力逐渐增强。
第二:映射领域可自主收缩的SOCA自动机
SOCA自动机存在发生小概率操作行为的现象,小概率操作行为的发生,会引发不良的操作后果。为了避免这一现象,本文设计了一种映射领域可在线自主收缩移动的SOCA自动机,映射领域指机器人各状态映射的操作行为集合,其收缩是通过定义学习误差的界限值和操作行为选取的概率阈值两个指标来实现的。论文对映射领域可自主收缩的操作条件反射学习的收敛性进行了分析,从理论上证明:最优操作出现的概率随映射领域的收缩趋于1,操作行为熵随映射领域的收缩收敛至极小。论文将映射领域可自主收缩的SOCA自动机应用于两轮机器人的运动平衡控制,初始映射领域是一个给定的含有多个操作行为的操作行为集合,随着学习的进行,不良操作出现的概率逐渐减小,概率值低于给定阈值的不良操作被剔除,大约进行20轮训练后,映射领域收缩至含一个或几个操作行为的集合。映射领域的收缩性使SOCA自动机可以在线地在最有意义的映射领域内搜索学习,通过有效的动态的消除无用的映射区域,提高了系统的学习速度和精度。
第三:模糊Skinner操作条件反射自动机的设计
本文进一步结合模糊集(Fuzzy Sets)理论,构建了模糊Skinner操作条件反射自动机(Fuzzy Skinner Operant Conditioning Automaton, FSOCA)。FSOCA自动机的主要特征在于,高斯函数对状态的模糊化结果作为模糊状态集合,模糊“条件-操作”规则代替随机“条件-操作”映射,FSOCA自动机可用于描述、模拟和设计各种模糊不确定系统的自组织行为。为了确保FSOCA自动机的模糊映射规则数是最佳的,论文采用在线聚类的方法实现了对输入状态空间的划分,利用映射规则的激发强度来决定是否需要产生一个新的映射规则。论文将FSOCA自动机应用于两轮机器人的运动平衡控制,随着学习的进行,最优模糊后件操作的选取概率逐渐增大,模糊操作行为熵逐渐减小,模糊映射规则自动增减,大约进行17轮训练后,最优模糊后件操作的选取概率渐趋于1,模糊操作行为熵渐趋于极小,映射规则数渐趋于最佳,机器人逐渐掌握运动平衡控制的技能。FSOCA自动机不仅实现了平滑输出,而且进一步改善了学习模型的学习速度和精度。
第四:鲁棒自主学习系统的设计
本文针对仿生自主学习模型的稳定性和性能问题,在FSOCA自动机的基础上,设计了一个鲁棒自主学习控制系统,主要包括模糊基函数网络(Fuzzy BaseFunction Network, FBFN)、增益控制单元和鲁棒单元三部分。其中,FBFN网络的功能与FSOCA自动机一样,主要执行操作行为产生的功能,同时利用性能测量机制提供的误差测量信号,产生取向值信息,以对操作行为产生网络进行调整;引入增益控制单元,是为了确保系统的稳定性,同时可以对系统的性能进行改善;鲁棒单元主要用来消除FBFN网络的学习误差及外部干扰。论文对鲁棒自主学习控制系统进行了理论分析,从理论上证明鲁棒自主学习系统是渐近稳定的;将其应用于两轮机器人的运动平衡控制,仿真结果表明,机器人在学习过程中避免了试错的学习过程,确保了系统的稳定性和学习性能,并且在存在干扰时,仍能达到期望的控制目标。
本文的研究工作得到了国家自然科学基金项目(60774077)、国家“863计划”资助项目(2007AA04Z226)和北京市教委科研计划和北京市自然科学基金重点项目(KZ200810005002)的支持。研究成果为机器人的自主学习控制,特别是运动平衡的自主学习控制,提供了新思路和新途径;对于机器人学和机器人技术、控制科学,以及人工智能和机器学习等诸多领域均有参考价值和科学意义。