基于强化学习的水下滑翔蛇形机器人浮力控制研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:kiry250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
水下滑翔蛇形机器人是一种结合了水下滑翔机和仿生水下蛇形机器人的新型仿生机器人。正是由于这种结合,使其既具有水下滑翔机低能耗、低噪音的滑翔步态,又具有仿生蛇形机器人机动性好、动作灵活的蛇形步态。但是由于存在未知的水动力学模型,大多数基于模型的控制器或者线性的PID控制器都无法有效地解决水下机器人复杂的控制问题。为此本文选用了一类不基于模型的强化学习算法来进行控制策略的自动学习。利用强化学习算法对水下滑翔蛇形机器人通过浮力变化控制的三种滑翔运动进行了研究,实现了该机器人的浮力控制,并通过算法的改进加速了策略函数的训练过程。为了实现利用强化学习算法对水下滑翔蛇形机器人的滑翔运动进行有效训练的控制策略。首先为方便水下滑翔蛇形机器人控制策略的训练而搭建了强化学习专用的虚拟环境,该虚拟环境包括不精确的水动力模型和强化学习算法的必需接口,并编写了二维的可视化界面。研究了水下滑翔蛇形机器人控制和强化学习算法有效结合问题,对机器人控制中的状态、动作和反馈信息分别找到了在强化学习中的对应要素,并对强化学习算法的要素分别进行了提取和生成,针对普通的生成方法会遇到的特征可观测问题、“维数灾难”问题和实际器件的应用问题分别对强化学习的状态特征进行了单独设计,并加入了一些启发式函数来对强化学习的奖赏函数进行改进,加速了控制目标的实现。在该机器人利用浮力控制方法实现滑翔运动的过程中,针对算法的通用性和收敛性问题,先后采用了基于值函数迭代和直接策略迭代的强化学习算法,通过两类算法的仿真实验得出了直接策略迭代算法在该机器人的浮力控制中更实用的结论。对直接策略迭代的方法选择了经典的蒙特卡洛策略梯度法,并对算法进行了两阶段的改进。首先对该算法中的策略函数使用神经网络来拟合,并对状态输入进行了预处理,提出了预处理的蒙特卡洛策略梯度法,并通过仿真实验中算法的训练效果得出了预处理的蒙特卡洛策略梯度法可以加速算法的收敛性,并改观状态不完全观测所带来的问题;后来为了使得该算法能有更好的通用性,又结合长短期记忆单元的循环神经网络,提出了循环蒙特卡洛策略梯度算法,通过对实现三种滑翔动作的算法训练,证明了该算法使得控制策略更接近一个马尔科夫决策过程,训练速度大幅提升,并对三种滑翔动作都取得良好的效果,验证了新提出的循环蒙特卡洛策略梯度法的有效性。
其他文献
我国市场经济发展迅猛,企业间的竞争与日俱增,为了能占领市场,扩大销售额,提高利润率,越来越多的企业开始利用信用额度,即暂时赊账的方式销售产品,这就产生了大量的应收账款。但是我国信用体系并不健全,应收账款规模的扩大也导致大量呆账坏账的出现,给企业经营带来严重的风险,一个企业如何既能科学的控制应收账款风险,又能达到利益最大化的目标,值得让人深入思考和研究。本文以D公司为研究案例,以信用管理理论,应收账
教材中的图片是教师备课、讲课的重要依据,是学生获得汉语知识、提高交际能力的重要工具。教材中图片的功能在对外汉语初级口语教学实践中发挥了巨大作用,但针对教材中图片编写方面的研究还有待进一步挖掘。本文选取《对韩汉语口语教程(初级)》中的图片作为研究对象,由图片功能角度切入,通过定量统计和比较分析的方法考察该教材中图片,并为该教材在图片编写方面提出优化建议,以期提高该教材图片与实际教学的结合度、提升教材
多阶段任务系统(Phased-Mission Systems,PMS)广泛存在于现代工程制造的各个领域,如航空航天、汽车船舶设计与制造等。多阶段任务系统要求系统中各个阶段中各个元件按照顺序完成指定的工作任务,以保证系统的顺利运行。PMS系统在不同的阶段元件的种类、数量和结构组成一般不相同,且其中的某些元件可能在多个阶段中都发挥作用,因此相较于单一阶段系统,PMS的分析和优化会更加复杂。PMS的系统
近年来,中国电子商务行业的迅猛发展为中国的物流与快递行业带来了前所未有的机遇与挑战,其中针对“最后一公里”物流配送问题,末端配送领域出现了较为丰富的行业解决方案,智能快递柜即是其中的一种形式。智能快递柜运营商以其智能终端设备为核心技术切入末端物流领域,它的寄件和派件的安全性和隐私性使其成为“最后一公里”物流配送方面最前沿的智能解决方案。同时,智能快递柜的诞生增加了顾客邮寄包裹、快递公司-配送员派送
未成年人作为社会群体构成的一部分,其参与社会活动及社会关系网与社会结构息息相关。墓葬是映射现实生活的重要遗迹,墓葬之间的相对位置关系与墓葬的空间分布可以反映社会关系与社会结构。本文对黄河中游史前丰富的未成年人墓葬进行整理,根据埋葬方式可以分成土坑墓和瓮棺葬两大类,以聚落考古的空间分析为指导,根据未成年人墓葬在聚落中的位置又各分三大类,每类之下根据未成年人墓葬与成年人墓葬的相对位置关系进行分类,土坑
近年来,目标检测是计算机视觉和人工智能领域的研究热点。行人检测作为目标检测的重要分支,在自动驾驶安全、智能安防和智能机器人等领域中得到广泛应用。但行人作为易形变目标,且由于行人着装千差万别,行人之间相互遮挡或被其他物体遮挡,行人姿态多样化,场景背景的多样化,光照强度不一等因素导致其检测精度不高,制约着行人检测技术的发展。本文主要的目的是进行行人检测方法研究,主要研究了无遮挡以及局部遮挡条件下的行人
随着电子商务的发展,越来越多的制造商和零售商在通过传统零售渠道销售产品的同时,建立了自己的直销渠道,直接为消费者提供产品。双渠道供应链迅速发展吸引了国内外学术界的目光。服务质量控制是双渠道供应链管理中的一项重要内容,制造商的线上服务质量和零售商的线下服务质量对市场需求有重要影响,同时服务具有展厅效应和反展厅效应,也会对市场需求和制造商、零售商的利润产生影响。因此,本文结合展厅效应、反展厅效应以及风
银行柜面操作涵盖了银行业务操作的所有基础业务,是银行战略发展的一线,银行柜面操作风险属于银行操作风险中的第一道防线。所以全面推进银行柜面风险管理刻不容缓,全面风险管理需要考虑银行柜面业务的每个层次、每个单元。通过对银行柜面业务操作风险种类、特点进行分析,总结银行柜面操作风险主要有(1)账户管理风险,(2)现金管理风险,(3)支付结算管理风险,(4)重要空白凭证管理风险,(5)授权管理风险五大风险节
近年来,世界经济增长整体趋缓,中国经济初显企稳,但仍存在下行压力。与此同时,随着降杠杆的逐步推进和新一轮“僵尸企业”处置工作的启动,部分行业和客户潜在风险将逐渐暴露,商业银行授信业务风险管控仍面临较大压力。集团授信相对于一般的对公授信业务和零售业务来说,银行对于集团客户风险识别的难度更大。因此,完善商业银行集团客户授信风险管理体系,对于提高商业银行的风险管理水平、切实防范化解授信业务风险有着十分重
习近平总书记曾说过“创新是发展的第一动力,而人才则是促进发展的第一资源”,党的十八大以来,总书记对国家人才工作发表过多次重要论述,各省各地区都出台了不少支持和鼓励高层次人才引进措施。同样的对于企业而言,要提升自身实力、提高竞争优势,就需要有足够的人才支持。企业的竞争早已由单纯的产品竞争逐步转向了对于掌握高技术、高技能、接受过高等教育的人才的竞争。企业在不断培育内部人才的同时,还需要从社会中引进“新