强化学习在机械手路径规划中的应用

被引量 : 0次 | 上传用户:xiangzuobuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
两手臂机械手作为一种特殊的机器人,由于它的两个手臂紧密连接,它们之间具有很强的关联性,在机械手从一点到另一点的移动过程中,各个手臂不能像一般的机器人一样视为一个点或圆,而只能简化为几条互连的线段,这样各个手臂的路径规划就成为一个有待尽快解决的问题。本文提出了一种基于强化学习理论的机械手路径规划方法,解决了具有两个手臂的机械手在二维平面系统中的路径规划问题,仿真实验证实了这一方法的有效性。 强化学习通过试错和与环境交互获得策略的改进,作为一种无监督学习方法,它直接从环境反馈中进行学习,这种特点使它能够适应变化的环境。其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。不同于有导师学习,它不需要给出输入—输出对,只是利用环境的惩奖信号来改善自己的行为。 本文首先介绍了强化学习的原理和结构,引入了强化学习的理论模型—马尔可夫决策过程,给出了常用的强化学习算法的流程,然后在此基础上介绍了多智能体强化学习理论的数学模型—马尔可夫对策,对基本的多智能体强化学习算法做了改进,削减了学习单元的冗余状态信息,降低了学习空间的组合强度,加快了多智能体强化学习算法的学习速度,最后提出了一种按比例分配的结构信度分配方法,把多智能体强化学习算法成功应用到了机械手路径规划中。
其他文献
本研究以北京市陶然亭公园内再生水灌溉约4年的草坪灌区与自来水草坪对照灌区为研究对象,运用统计学、数量生态学及微生物生态学分析方法研究再生水灌溉对土壤系统、植被系统
针对LF精炼废渣带来的堆放占地和环境污染日益突出等问题,开展精炼废渣资源循环利用的研究对于环境保护和钢铁企业的节能减排具有重要意义。综述了前人在LF精炼废渣资源循环
在含水量90%的非离子型微乳液-乳化剂OP/正丁醇/正庚烷/水中,以5-Br-PADAP为显色剂,吸光光度法测定镉,结果表明,络合物的λmax为565nm,摩尔吸光系数达2.14×105L·mol-1cm-1,
我国法律援助制度的适用率非常之低,其原因主要表现在三个方面:办案人员法律意识的缺失;法律援助案件的补贴方式制约了法律援助律师队伍的建设;有关法律援助启动的程序细则不
在分析厦门市发展服务外包产业意义的基础上,从创业环境、区位优势、产业空间、政府重视、专业人才等方面阐述了厦门发展服务外包产业的有利条件与存在问题;并结合目标、分析
目的:研究增殖细胞相关抗原(Ki67)在甲状腺髓样癌中的表达及临床意义。方法:采用免疫组化SP法检测42例甲状腺髓样癌组织、18例癌旁组织中Ki67的表达,并分析Ki67增殖指数与临
目的:探讨局部晚期非小细胞肺癌同步放化疗与化疗的配合模式。方法:把符合入组标准的94例局部晚期非小细胞肺癌分为A、B、C三组,A组为直接同步放化疗组,放化疗后行辅助化疗4-
<正> 随着真空冶金的日益发展,真空感应炉应用底铸出钢的新技术普遍地引起人们的注意。英国Edwards公司出产的真空感应炉中,已经采用了底铸出钢的新技术。在真空中应用底铸可
以鲫鱼鱼鳞为原料,对其预处理后采用柠檬酸浸提酶解等工艺得到鱼鳞抗菌多肽粗酶解液,经透析后,再依次经Sephadex G-15、Sephadex G-50凝胶过滤层析和纤维素DEAE-52阴离子交换
马铃薯病毒一直是困扰其种植的难题,最有效的方法就是进行马铃薯脱毒。本文就马铃薯脱毒种薯采取了如下列技术措施:首先将带毒薯在室内催芽、消毒处理,然后在无菌条件下,切取茎尖