自组织映射神经网络量化机器人强化学习方法研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:shadowyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习一词来自于行为心理学 ,这门学科把行为学习看成反复试验的过程 ,从而把环境状态映射成相应的动作 .在设计智能机器人过程中 ,如何来实现行为主义的思想、在与环境的交互中学习行为动作 ?文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为 ,采用强化学习方法来实现智能机器人避碰行为学习 .为了提高机器人学习速度 ,在机器人局部路径规划中的状态空间量化就显得十分重要 .本文采用自组织映射网络的方法来进行空间的量化 .由于自组织映射网络本身所具有的自组织特性 ,使得它在进行空间量化时就能够较好地解决适应性灵活性问题 ,本文在对状态空间进行自组织量化的基础方法上 ,采用强化学习 .解决了机器人避碰行为的学习问题 ,取得了满意的学习结果 The term reinforcement learning comes from behavioral psychology, which treats behavioral learning as a process of trial and error, mapping the state of the environment into action.How to implement the concept of behaviorism in the design of intelligent robots, Environment interaction behavior of learning behavior? The robot robot in an unknown environment to avoid the obstacles taken by the action as a behavior, the use of enhanced learning methods to achieve intelligent robot avoid collision behavior learning.In order to improve the robot learning speed, in the robot part It is very important to quantify the state space in path planning.This paper uses the method of self-organizing mapping network to quantify the space.As the self-organizing feature of self-organizing mapping network itself, it can be better in the space quantization In order to solve the problem of adaptive flexibility, this paper applies reinforcement learning to the basic method of self-organizing quantitative state space, solves the learning problem of robot avoidance behavior, and achieves satisfactory learning results
其他文献
在以往的乘性噪声系统的观测模型中 ,由于假定各通道的乘性噪声是完全相同的 ,因此并不是真正的多通道系统。而本文则考虑各通道乘性噪声不同的情况 ,即真正意义上的多通道带
通过对复合地基静载荷试验和桩土应力比测试,对软土地基上某住宅小区设计的大桩距水泥搅拌桩复合地基的承载性状和桩土应力比进行全面探讨,为大桩距水泥搅拌桩在软基上的设计
介绍了一种基于工控机的雷达仿真平台的设计。详述了硬件的组成原理及软件的设计方法。 The design of a kind of radar simulation platform based on IPC is introduced.
为了较准确地判断温黄平原早稻的合理用氮量 ,进行了早稻不同用氮量试验和函数表征比较。初步结果表明 ,二个直线方程求解早稻用氮量优于一元二次方程求解 ;采用二个直线方程
大气层内拦截弹采用空气动力与燃气动力的复合控制方式是当今世界防空导弹的发展方向之一。复合控制技术的分析研究是当前急需解决的重要问题。在考虑目标机动加速度大小、目
本文首先综述了我们自主开发研制的宽带IP接入系统的结构,然后介绍了该结构中关键设备:小区核心交换机(ZAN)和楼宇交换机(BAN)的特点和功能,详细说明了交换机各个功能模块的
目的:探讨Cys C对糖尿病早期肾脏损伤评估的意义.方法:收集2型糖尿病患者尿白蛋白正常组50例、微量组70例、大量组80例;另选正常对照组50例.检测4组CysC、BUN及SCr水平.结果:
控制预应力混凝土构件的裂缝的目的是确保构件正常使用,对规范控制裂缝的方法进行了分析,介绍了名义拉应力控制预应力混凝土受弯构件裂缝的方法,给出了计算允许名义拉应力的
根据室内流变性测试实验,研究了三元复合驱注入体系和油井采出液流变特性,得到了描述其流变特性的本构方程,确定了相应的流变参数。实验结果表明,三元复合驱注入体系和三元复
目前激光微调在光通讯波导器件的研制方面已得到了应用。本文运用激光微调在波导器件上进行了实验,其中以波导环形器和马赫—曾德尔干涉仪为例,具体讨论了激光微调技术在控制