Skinner操作条件反射模型与机器人仿生自主学习控制

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zjflxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人或动物的诸多技能或行为是在其神经系统自学习和自组织的过程中渐进地形成和发展起来的,理解和模拟人和动物神经系统内在的学习和组织机制,并将这种机制赋予机器,是控制科学、人工智能和机器人学研究的重要课题。操作条件反射(Operant Conditioning)机制是人和动物神经系统内在的重要学习机制,人和动物的运动平衡控制技能是基于这种机制渐进的形成、发展和完善的。   本文模拟人和动物的操作条件反射机制,研究两轮自平衡机器人自主学习运动平衡控制技能的问题,取得了以下主要成果:   第一:Skinner操作条件反射自动机的设计   本文在随机概率自动机的理论框架中,基于Skinner的操作条件反射理论,建立了一种操作条件反射模型,称为Skinner操作条件反射自动机(SkinnerOperant Conditioning Automaton, SOCA)。SOCA自动机是一个七元组,包括:1)有限状态集合;2)操作行为集合;3)映射集合-随机“条件-操作”映射集合;4)状态转移函数-意味着操作产生的后果;5)取向单元-定义取向性函数,规定SOCA自动机的期望状态;6)操作条件反射单元-利用取向单元提供的取向性信息,调节其学习机制,改变各操作行为的选取概率;7)操作行为熵-衡量SOCA自动机的自组织程度。SOCA自动机的主要特征在于模拟生物的操作条件反射机制,具有仿生的自组织功能,包括自学习和自适应功能,可用于描述、模拟、设计各种自组织系统。论文对SOCA自动机进行了理论分析,从理论上证明了SOCA自动机的操作条件反射学习机制的收敛性,即:最优操作出现的概率随学习进程趋于1,操作行为熵随学习进程收敛至极小。论文将SOCA自动机应用于两轮机器人的运动平衡控制,SOCA自动机的状态集合用于描述机器人的倾角和倾角速度,操作行为集合用于描述施加到机器人左右轮电机上的控制信号。初始状态下,机器人不具备运动平衡的能力,操作行为集合中各操作的选取概率是均等的,随着学习的进行,最优操作的选取概率逐渐增大,操作行为熵逐渐减小,大约进行25轮训练后,最优操作的选取概率渐趋于1,操作行为熵渐趋于极小,机器人的运动平衡能力逐渐增强。   第二:映射领域可自主收缩的SOCA自动机   SOCA自动机存在发生小概率操作行为的现象,小概率操作行为的发生,会引发不良的操作后果。为了避免这一现象,本文设计了一种映射领域可在线自主收缩移动的SOCA自动机,映射领域指机器人各状态映射的操作行为集合,其收缩是通过定义学习误差的界限值和操作行为选取的概率阈值两个指标来实现的。论文对映射领域可自主收缩的操作条件反射学习的收敛性进行了分析,从理论上证明:最优操作出现的概率随映射领域的收缩趋于1,操作行为熵随映射领域的收缩收敛至极小。论文将映射领域可自主收缩的SOCA自动机应用于两轮机器人的运动平衡控制,初始映射领域是一个给定的含有多个操作行为的操作行为集合,随着学习的进行,不良操作出现的概率逐渐减小,概率值低于给定阈值的不良操作被剔除,大约进行20轮训练后,映射领域收缩至含一个或几个操作行为的集合。映射领域的收缩性使SOCA自动机可以在线地在最有意义的映射领域内搜索学习,通过有效的动态的消除无用的映射区域,提高了系统的学习速度和精度。   第三:模糊Skinner操作条件反射自动机的设计   本文进一步结合模糊集(Fuzzy Sets)理论,构建了模糊Skinner操作条件反射自动机(Fuzzy Skinner Operant Conditioning Automaton, FSOCA)。FSOCA自动机的主要特征在于,高斯函数对状态的模糊化结果作为模糊状态集合,模糊“条件-操作”规则代替随机“条件-操作”映射,FSOCA自动机可用于描述、模拟和设计各种模糊不确定系统的自组织行为。为了确保FSOCA自动机的模糊映射规则数是最佳的,论文采用在线聚类的方法实现了对输入状态空间的划分,利用映射规则的激发强度来决定是否需要产生一个新的映射规则。论文将FSOCA自动机应用于两轮机器人的运动平衡控制,随着学习的进行,最优模糊后件操作的选取概率逐渐增大,模糊操作行为熵逐渐减小,模糊映射规则自动增减,大约进行17轮训练后,最优模糊后件操作的选取概率渐趋于1,模糊操作行为熵渐趋于极小,映射规则数渐趋于最佳,机器人逐渐掌握运动平衡控制的技能。FSOCA自动机不仅实现了平滑输出,而且进一步改善了学习模型的学习速度和精度。   第四:鲁棒自主学习系统的设计   本文针对仿生自主学习模型的稳定性和性能问题,在FSOCA自动机的基础上,设计了一个鲁棒自主学习控制系统,主要包括模糊基函数网络(Fuzzy BaseFunction Network, FBFN)、增益控制单元和鲁棒单元三部分。其中,FBFN网络的功能与FSOCA自动机一样,主要执行操作行为产生的功能,同时利用性能测量机制提供的误差测量信号,产生取向值信息,以对操作行为产生网络进行调整;引入增益控制单元,是为了确保系统的稳定性,同时可以对系统的性能进行改善;鲁棒单元主要用来消除FBFN网络的学习误差及外部干扰。论文对鲁棒自主学习控制系统进行了理论分析,从理论上证明鲁棒自主学习系统是渐近稳定的;将其应用于两轮机器人的运动平衡控制,仿真结果表明,机器人在学习过程中避免了试错的学习过程,确保了系统的稳定性和学习性能,并且在存在干扰时,仍能达到期望的控制目标。   本文的研究工作得到了国家自然科学基金项目(60774077)、国家“863计划”资助项目(2007AA04Z226)和北京市教委科研计划和北京市自然科学基金重点项目(KZ200810005002)的支持。研究成果为机器人的自主学习控制,特别是运动平衡的自主学习控制,提供了新思路和新途径;对于机器人学和机器人技术、控制科学,以及人工智能和机器学习等诸多领域均有参考价值和科学意义。
其他文献
由于近年来世界各地毒品/爆炸物走私活动日益猖獗,而目前国内安检部门所采用的X射线探测毒品/爆炸物都为密度识别方法,准确度不是很高。本课题根据国家自然科学重点基金:高速X光
车牌识别(LPR)系统是智能交通系统的重要组成部分之一。它在违章车辆监控、高速路口自动收费、交通控制与诱导、车辆管理以及安全防盗等领域有广泛应用。本文针对目前车牌识
仿人机器人研究集机械,电子,计算机,材料,传感器,控制技术等多门科学于一体,代表着一个国家的高科技发展水平。双足稳定行走作为仿人机器人实用的前提条件,一直是仿人机器人
近年来,随着科技的发展,多智能体协调控制技术在军事和民用中得到广泛的应用,如侦查监视与目标打击、智能高速公路、环境监测、未知环境探索等。一致性问题是多智能体协调控
目前,世界上大部分电力系统已发展成为集中发电、远距离输电的大型互联网络系统。但是随着近年来用电负荷的不断增加,受端电网对外来电力的依赖程度也不断提高,使电网运行的稳定性和安全性下降。为解决问题,上世纪90年代以来在国外提出将分布式发电技术与储能技术综合在一起的特殊电网形式,即微型电网(Microgrid)。并网逆变技术是微电网实现并网的关键技术,其主要功能是将各种间歇式能源发电组成的直流母线上的电
随着技术的革新,机器人的应用领域不断拓展,人们对于带有环境感知、自主规划路径的自主式移动机器人需求不断增加,自主式移动机器人逐渐成为机器人研究领域中的热点问题受到
钢铁企业中能源介质的传输与转换的过程复杂,确保连续、安全和经济的能源供应是企业能源管理的重要任务。从钢铁企业能源的使用情况来看,副产煤气是能源优化调度的重点。由于
精益生产作为一种先进的生产管理方式和当今制造业最卓越的管理模式,受到了学术界和产业界的高度重视。它以持续改善为目标,在注重生产过程管理的同时,也注重人员管理。精益生产以人为本,强调生产过程的精细化管理。随着企业信息化水平的提升,研究将精益生产理念与信息化技术相结合,利用信息化技术手段支持实现生产过程的精细化管理与监控,对推进精益生产方式的实施具有重要现实意义。目前,我国的装配制造企业在装配方式上主
本文根据电阻层析成像(ERT)技术的相邻测试原理,设计了ERT数据采集系统样机,并对样机进行了测试。它包括以下电路设计:设计了基于直接数字合成(DDS)技术的幅度、频率可以数字
服务型机器人不仅需要在非结构化环境中运动,更为重要的是需要具有操作能力,就好比人类做任何事情都离不开灵巧的手臂。服务型机器人的操作能力主要通过其安装的机械臂来体现。
学位