基于强化学习的机械臂控制研究

被引量 : 0次 | 上传用户:DKarson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人在实际生活中的应用越来越广泛,人们对机器人的智能提出了新的要求。将强化学习应用到机械臂控制中,正在成为人工智能领域新的研究热点。强化学习主要是一个“怎样做”-“怎样使状态与动作映射”-“怎样最大化奖赏信号”的学习过程。强化学习不需要环境的完整模型,智能体通过与环境的交互不断学习,获得知识以完成任务,在人工智能方面特别是机器人控制方面得到越来越多的应用。本文主要研究机械臂控制问题,分析了现有学习方法,并将强化学习应用到机械臂控制上来。本文将研究对象系统学习模型通过一定的分析和简化,转化为一个平面4自由度的机械臂的学习系统,并对这个系统进行研究,将系统的环境状态变量细化,明确了系统变量和实际研究内容,同时对整个学习控制系统进行了简单的数学描述。针对强化学习收敛慢和容易出现“维度灾”缺点,将学习系统中的连续状态空间进行分析和处理,转化为离散的状态空间,以适合强化学习的应用;并分析系统的信度分配,重点分析了时间信度分配和结构信度分配,提出了解决方法。通过分析与对比几种主要强化学习方法,研究了强化学习模型和关键元素,找到适合本文使用的基本强化学习方法,结合两层强化学习思想,给出了本文系统的具体方法。在Windows操作系统下使用VC++2003.net编写了一个适合本文研究的仿真实验平台,对照实际环境分析了仿真实验的环境状态,并对算法的关键参数做了简单分析,进行了一般强化学习方法和本文所用强化学习方法的仿真实验,通过对比两种实验的结果,证明了强化学习方法的有效性以及本文方法的合理性。
其他文献
目的系统评价雷替曲塞联合奥沙利铂与氟尿嘧啶联合奥沙利铂治疗晚期结直肠癌的临床疗效和安全性。方法以晚期结直肠癌、雷替曲塞、氟尿嘧啶、奥沙利铂为检索词,查阅2014年1月
家用筷子看上去简单、朴素,不过就两根又细又长的小棍子,有什么健康隐患呢?说出来可能会吓你一跳:如果筷子清洗和保存方法不得当,它可以成为幽门螺旋杆菌等细菌的传播工具,容
采用氢化物发生-四通道原子荧光光谱仪同时测定化探样品中砷、锑、铋和汞的含量。试样溶于盐酸-硝酸-水(3+1+4)的混合酸中,分取适量试液在盐酸(1+4)溶液和含硫脲10g·L-1的介
采用固相膜萃取-气相色谱法测定养殖用水中乐果、甲基对硫磷和马拉硫磷等3种有机磷农药的含量。水样经C18固相萃取膜萃取后,用丙酮和二氯甲烷洗脱。用SPB-608毛细管色谱柱分
配气机构作为发动机的重要组成部分,其设计的合理与否直接关系到发动机的动力性、经济性、排放性,以及工作的可靠性、耐久性。随着发动机性能要求的提高,为了使发动机在高速运行
脑梗死属于中医学“中风”范畴,目前已成为多发病、常见病,常常造成患者神经功能缺损,尤其并发吞咽障碍,造成其生活质量严重下降。目前对诊断有吞咽障碍的脑梗死患者,恢复期
气动人工肌肉是一种新型的拉伸型气动执行元件,具有重量轻、输出力-直径比大、柔顺性好、类似生物肌肉的特点,在仿生、康复等技术领域中展现出了良好的应用前景。本论文基于
为了满足公司日益增长的产量要求,A电梯公司引入并实施精益生产,要求各生产部门消除浪费、提高产量。论文根据扶梯装配车间的生产现状,利用价值流图析技术,识别出当前生产状
本文以保定地税公务员培训的现状为切入点,结合人力资本有关理论和系统化培训方法,论述了当前保定地税干部培训的现状和问题,并结合国际、国内进行公务员培训的先进经验,提出