基于Q学习算法的机械臂轨迹规划研究

被引量 : 0次 | 上传用户:fankyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机械臂是机器人研究领域的重要分支之一,受到人们越来越广泛的关注。而将机器学习方法应用到机械臂轨迹规划控制中,正成为人工智能领域研究的热点方向。Q学习算法是一类非监督无模型的在线学习技术,通过试错的方式与环境不断交互学习,获得知识完成任务,在人工智能方面特别是机器人控制方面得到越来越多的应用。本文主要研究了机械臂轨迹规划控制问题,在分析已有的机械臂控制方式和Q学习算法的基础上,得出该算法具备应用到机械臂轨迹规划中的优越性。为获得机械臂在运动过程中的坐标变换计算方法,分析实际系统的构成形式,并将其简化抽象为工作在二维平面上的关节型机械臂系统。针对相邻机械连杆间的耦合关系,将机械臂控制转化为多智能体合作学习问题。以单智能体路径规划为例阐述了Q学习算法原理以及算法在学习和优化方面的突出特色。针对多连杆型机械臂系统,为了解决Q学习算法与机械连杆相耦合的状态相关性,提出了具体解决方法并分析了该方法的泛化性。针对算法中所使用的ε-greedy贪婪策略易陷入局部最优解的缺点,通过分析贪婪策略搜索最优解的基本原理获得陷入局部最优解原因。提出了一种可以根据学习进程适时调整比例参数的动态贪婪策略。改进后的动态贪婪策略能够使算法跳出局部最优解状态,直到获得全局最优为止。为了解决Q学习算法中动作效果评价问题,设计了一种用于机械臂轨迹规划中评价动作执行效果的判断方法。该方法以当前位置和目标点间的欧氏距离为基础,按照动作效果定量地给予奖惩值,克服了经常采用的只有“好”、“坏”两种指标的评价机制,保证评价的客观性和公平性。本文以二自由度机械臂为例设计了智能控制器。比较和分析了改进后Q学习算法在轨迹规划中的优越性。最后,将控制器进一步扩展到三自由度机械臂的轨迹规划中。仿真结果表明,控制器具有一定的扩展性和可行性。
其他文献
本课题以全氟环氧丙烷齐聚衍生物(CF3CF2(C3F6O)nCOF,n=2,3,4)为原料,经过酰胺化、加成和水解等一系列反应得到氨基酸型氟碳表面活性剂。产物(n=2)经红外光谱、质谱和核磁共
在中美两国的外交方面,人权问题一直都是近年来两国交涉的重点。美国每年都发布《别国人权报告》,其中不乏对中国的人权国情评头论足。这种干涉别国内政的外交行为无疑引起了
在信息以几何式增长的今天,知识和创新能力成为生存的资本,学习的需求与日俱增。学习的形式随着技术的发展而更加丰富多彩,传统的学校教育已经不能满足人们对学习个性化和多元化
刑事司法鉴定人出庭作证是指在刑事案件的庭审过程中,通过对与案件有关联的专门性问题进行司法鉴定,同时做出司法鉴定意见的鉴定人参与到庭审过程中,在法庭上对鉴定过程及与
话语理论认为,人类和人类社会活动是由话语建构起来的,通过考察话语产生与演变的过程,可以窥探人类历史演进的真实。后现代主义也认为一切组织过程的中心点和主要方面都是话
学校德育工作事关我国教育大计,任何时候都不能放松,必须摆在学校教育的重要位置。但中学德育工作依旧存在着诸如形式化严重、效果低下等问题,单靠常规的德育课程和专职德育工作
随着移动终端设备在大众生活中的普及以及云存储服务的发展,应用软件对用户文件在服务器与本地之间的同步提出了需求。Android作为一种广泛使用的移动终端操作系统,其远程文件
集成电路技术的发展在使现场可编程门阵列(FPGA)器件的规模更大、功能更强、内部资源更丰富的同时也让芯片的测试难度大大增加。在FPGA芯片中,承担逻辑模块之间互连以及信号传
自主学习是个体根据自身需要,自觉确定学习目标、制定学习计划、恰当选择学习策略、监控学习过程、评价学习结果的过程或能力。培养学习者自主学习能力是当今世界各国教育的首
胃癌是我国最常见的恶性肿瘤之一,2009年全国恶性肿瘤发病和死亡分析显示:胃癌发病率居恶性肿瘤的第二位,死亡率居第三位,依然是我国恶性肿瘤死亡的主要原因。我国胃癌具有发病率