论文部分内容阅读
机械臂是机器人研究领域的重要分支之一,受到人们越来越广泛的关注。而将机器学习方法应用到机械臂轨迹规划控制中,正成为人工智能领域研究的热点方向。Q学习算法是一类非监督无模型的在线学习技术,通过试错的方式与环境不断交互学习,获得知识完成任务,在人工智能方面特别是机器人控制方面得到越来越多的应用。本文主要研究了机械臂轨迹规划控制问题,在分析已有的机械臂控制方式和Q学习算法的基础上,得出该算法具备应用到机械臂轨迹规划中的优越性。为获得机械臂在运动过程中的坐标变换计算方法,分析实际系统的构成形式,并将其简化抽象为工作在二维平面上的关节型机械臂系统。针对相邻机械连杆间的耦合关系,将机械臂控制转化为多智能体合作学习问题。以单智能体路径规划为例阐述了Q学习算法原理以及算法在学习和优化方面的突出特色。针对多连杆型机械臂系统,为了解决Q学习算法与机械连杆相耦合的状态相关性,提出了具体解决方法并分析了该方法的泛化性。针对算法中所使用的ε-greedy贪婪策略易陷入局部最优解的缺点,通过分析贪婪策略搜索最优解的基本原理获得陷入局部最优解原因。提出了一种可以根据学习进程适时调整比例参数的动态贪婪策略。改进后的动态贪婪策略能够使算法跳出局部最优解状态,直到获得全局最优为止。为了解决Q学习算法中动作效果评价问题,设计了一种用于机械臂轨迹规划中评价动作执行效果的判断方法。该方法以当前位置和目标点间的欧氏距离为基础,按照动作效果定量地给予奖惩值,克服了经常采用的只有“好”、“坏”两种指标的评价机制,保证评价的客观性和公平性。本文以二自由度机械臂为例设计了智能控制器。比较和分析了改进后Q学习算法在轨迹规划中的优越性。最后,将控制器进一步扩展到三自由度机械臂的轨迹规划中。仿真结果表明,控制器具有一定的扩展性和可行性。