空间机械臂深度增强学习神经网络控制研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:df6b1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间机械臂作为航天器部件中的活动机构,在空间站建设和月球探测车的工程应用中将发挥重要作用。本文针对于空间机械臂自主性控制,采用深度神经网络实现空间机械臂端对端控制,并利用深度增强学习算法来学习神经网络的控制策略,主要研究工作如下:1.针对空间机械臂的操作任务特点,分析了基于关节角速度的控制方法可行性,定义了基于马尔可夫模型的空间机械臂任务环境,包括状态、动作和奖励;为了提高智能体和环境之间交互的灵活性,提出了一种基于TCP的信息交互机制。2.为了避免离散动作控制引起的维数灾难问题,多自由度空间机械臂控制中采用了深度确定性策略梯度算法;针对于该算法在空间机械臂控制任务中的应用,设计了一种添加角速度软界限项的奖励函数,从而改善了算法的策略优化过程,得到了更好的机械臂控制效果。3.针对通常仿真平台与真实系统的动力学存在差异,导致策略迁移后需要在真实系统中对神经网络进行再训练的问题,提出了一种从机械臂仿真平台到真实机械臂系统的策略直接迁移方法,通过实验验证了该方法的有效性。4.针对空间机械臂基于图像端到端控制任务,提出了一种空间机械臂深度学习控制方法。该控制方法直接利用数据驱动自主学习产生控制策略,可以不需要依赖动力学模型,通过将深度策略网络拆分为深度网络和策略网络分别进行训练,可以在训练过程不依赖于真实机械臂系统,通过实验验证了该方法的有效性。本文研究了空间机械臂深度增强学习神经网络控制中任务环境、连续控制、策略迁移和增强学习问题,研究结果对空间机械臂在未知环境下完成在轨操作任务有一定的借鉴意义。
其他文献
覆土是铀尾矿库滩面治理的主要手段,但其性状易受外部营力(如长期日晒雨淋等)的影响而发生明显变化,进而使其控氡性能劣化。在干燥条件下,土体极易蒸发失水收缩产生龟裂,深入研
我国煤炭储量大、分布范围广。在煤炭开采过程中,煤自然发火一直是困扰矿井安全的主要难题,也是影响我国能源行业健康稳定发展的重要因素。而采空区是煤自燃最为频发,治理最
疼痛具有保护机体的作用,使机体能够躲避有害刺激。痛觉异常能够诱发很多不良反应,比如慢性痛觉异常(如病理性神经痛)能诱发情绪反应,甚至产生心理、精神问题(如焦虑、抑郁等
生命体内的细胞受到刺激后,通过门控机制,能够实现细胞内的物质代谢、信号传递和能量转换的功能。生物膜由磷脂双分子构成,镶嵌在其中的跨膜蛋白与生物膜共同构成生物体通道,
目前,有机-无机金属卤化物钙钛矿材料由于其制备简单且光电性能优良,如带隙可调,吸收系数高,载流子迁移率高等,被证明是光伏领域最具应用前景的材料。近年来,通过界面工程,添
管棚法是地下结构工程浅埋暗挖施工的一种超前预支护方法,其作用本质是在地下隧道工程开挖后的初期支护及二次衬砌拱圈弧线上,预先钻孔并且安装惯性力矩较大的厚壁钢管,发挥临时超前支护作用,防止隧道拱顶土层坍塌及降低地表土层下沉量,确保隧道开挖掘进过程及后续支护工作的安全运作。管棚法施工在近年来的隧道施工中得到了广泛的应用,尤其对浅埋偏压且含软弱土层隧道而言特别重要。本文通过分析研究管棚法的设计及施工,结合
  借助北斗高精度定位技术对共享单车进行精细化管理已成为改善市容市政的重要举措。本文对基于北斗高精度定位共享单车精细化管理中的关键技术进行了探讨,针对高精度差分服
氢气(H2)作为一种可再生的清洁能源,在能源问题越来越严重的今天受到了全世界研究学者的关注。目前,制备氢气的方法有很多种,其中主要的制氢方法有:水分解制氢、天然气制氢和生
随着我国对城镇化建设与基础设施建设进程的推进,大量的天然砂石被过度开采,与此同时产生了大量可回收利用的建筑垃圾。而这些建筑垃圾中的废弃混凝土在进行粉碎、筛分、清洗与分级后,选取合适的比例与级配混合重新制成再生骨料,替换掉部分或全部砂石等天然骨料,再混合水泥、水或部分天然骨料搅拌而成可得到再生混凝土。再生混凝土本身作为一种绿色环保材料,本课题组将再生混凝土技术与原有普通混凝土横孔空心砌块砌体结构相结
糖尿病是一种多参数代谢性疾病,其特点是血糖水平高。病因研究表明,严格控制餐后血糖可预防或延缓糖尿病的发展及其相关的长期并发症。α-葡萄糖苷酶是一种膜结合酶,存在于小