基于强化学习方法的单吊索恒力控制

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liweibin522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在地面环境中人类已经生存发展了数万年。太空环境与地面环境差别巨大,最直接的影响就是其对人类探索宇宙的航天任务带来了极大的挑战,其中的低重力环境(失重或微重力)就是给人类带来众多负面影响的因素之一。从人类首次登上月球的阿波罗计划至今,给宇航员在空间环境下提供舒适的体验是载人航天任务顺利进行的前提。对此,低重力模拟技术应运而生。经过多年的发展至今,低重力模拟技术已经比较成熟,期间浮现出了诸多的相关研究成果如悬吊法、气浮法、落塔法、配重法等。其中悬吊法拥有结构实现简单、可实现自由度多、补偿精度高等优点,在诸多方案中脱颖而出成为应用最为广泛的方法之一。本文将控制策略研究对象定为悬吊法低重力模拟。针对登月宇航员在月球地面上自由行走这一任务要求,设计了利用单吊索恒拉力控制系统实现悬吊法低重力模拟的控制方案。分析了实际系统中存在的模型参数不确定性问题以及存在多个谐振频率问题,探讨了绳索、弹簧缓冲机构、力传感器等分立元件的存在对系统造成的影响,建立了用于强化学习算法仿真的环境模型。为了有效实现对单吊索恒拉力控制系统的控制,本文首次采用了强化学习方法来进行单系统控制算法设计。首次采用了深度Q网络(DQN,Deep Q-Network)算法进行了系统控制策略的学习。对于单吊索控制系统这一连续型动作空间模型,首先需要进行系统动作空间的离散化,建立一个神经网络用于拟合状态-动作值函数,用环境给出的奖励信息来评价由神经网络算出的梯度信息,从而进行训练,最终得到最优的状态-动作值网络。最后,采用了深度确定性策略梯度(DDPG,Deep Deterministic Policy Gradient)算法进行控制策略的学习。为了克服DQN算法只能用于离散型动作空间这一缺点,DDPG算法分别建立了Actor网络和Critic网络。Actor网络根据输入状态输出动作,Critic网络输出当前状态和动作(二者均为连续)的价值,其可以处理连续型的状态以及动作空间。结果表明其相较DQN算法达到了更好的控制效果。
其他文献
在自动化设备高速发展的时代,越来越多的机械设备取代了人工操作。其中,伺服电机作为多轴运动控制系统的执行器起到了至关重要的作用。当伺服电机运行环境恶劣或干扰较多时,可能会使其各部件出现不同种类的故障,严重时可能导致整个系统功能瘫痪与损毁,造成不可挽回的损失。所以,对于伺服电机进行实时故障诊断工作的重要性不言而喻。本文基于伺服电机运动控制系统,开发了一套实时在线状态监测平台,同时进行故障诊断方法研究,
学位
学位
网络,即具有图结构的数据,作为一种能够有效表达实体间关系的数据结构,被广泛应用于推荐系统,社交网络分析等领域。但是对图数据进行挖掘和分析需要大量的标注数据,即图节点带有标签。但是在现实生活中得到的图数据往往没有大量的标注信息,只有少量的标注信息甚至完全没有。而图数据往往规模庞大,甚至可能有数十亿个节点,如果进行人工标注将耗费大量的人力、物力和时间。并且可能会导致用户隐私数据泄露的风险。跨网络节点分
学位
进入大数据时代,数据挖掘成为数据分析的重要手段。通过数据挖掘,研究者可以获得大数据里的隐含信息并加以研究和应用。但部分特定领域的数据集缺乏完善的数据标注,使得这些领域的发展受到了限制。针对这种需求,迁移学习方法应运而生。迁移学习是一种新的机器学习范式,旨在利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型应用于新领域。此外,随着信息数据爆发式的增长,使用图数据能够更有效地表达实体与实体间的
学位
随着计算机软件技术的迅猛发展,软件的规模和复杂程度不断提高,不可避免地导致更多软件漏洞的发生。因此,漏洞的理解与修复成为了软件维护过程中不可或缺的重要环节。漏洞的修复要求开发者具备良好的网络安全和软件安全的知识储备,但并不是所有开发者都具备这一条件。因此,开发者往往需要通过检索漏洞数据库来学习与获取漏洞相关的知识。但是,目前缺少便捷易用的漏洞知识库,开发者往往需要前往不同的漏洞数据库或者开源软件管
学位
如何提高弹道飞行器的机动躲避能力以保持其作战有效性是弹道飞行器在21世纪面临的重大挑战。近年来,多个军事大国积极发展和部署反导防御系统,弹道飞行器的机动躲避问题研究也变得日益重要。由于防御系统中,追踪飞行器不论是自身结构或是制导方式都具有多样性,难以事先对其完成精确的数学模型构建,那么基于此设计对应的机动策略也显得尤为困难。同时,传统的采用微分对策或矩阵博弈的逃逸方式设计并未考虑多个飞行器同时追踪
学位
为了准确获得压缩机输气系数,搭建了复叠式高温热泵系统试验台,对此开展理论及试验研究。建立了压缩机输气系数的机理模型、拟合关联式模型、BP人工神经网络模型和优化后的BAS-BP人工神经网络模型,通过4种模型分别对压缩机输气系数进行预测,结果表明:其经过优化后的BAS-BP人工神经网络模型预测高、低温压缩机输气系数结果平均误差为1.61%和1.02%,较BP人工神经网络模型误差降低了1.01%和0.7
期刊
报纸
2021年全国两会期间,习近平总书记强调,“大思政课”我们要善用之。大思政视域下开展党史学习教育,可以通过融入学科、开拓场域、创新方法等,深入思考“大思政课”与党史学习教育融合机制,积极回应高中学校“建立党史学习教育常态化、长效化的制度机制”实践课题,有效探索党史学习教育实践进路。
期刊
医学临床经验表明,癌症的治疗取决于对它的早期诊断,如何有效提升病理诊断的效率是一个重要的问题。近些年随着深度学习在图像分类领域的广泛的应用,为解决上述问题带来了曙光,研究人员开始在医学图像领域应用深度神经网络,不断提高对医学病理图像的分类和分割精度。由于深度学习算法运算速度相较人工诊断更为迅速,随着深度神经网络的不断发展,有望在未来全面投入医疗行业,为病人的健康带来福音。基于病理图像分类、分割、感
学位