基于深度强化学习的空间站短期任务规划方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ullige000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前我国空间站在轨建设任务已拉开序幕,开展空间站运营技术智能化研究,对空间站在轨运营技术发展有重要意义。本文从我国空间站运营任务规划工程需求出发,结合近年飞速发展的深度强化学习技术,开展了空间站运营短期任务智能规划方法的研究,其主要研究成果如下:研究了基于深度强化学习算法的空间站任务规划约束满足方法。为能够结合深度强化学习技术处理空间站任务规划问题,通过对空间站短期任务规划问题进行分析,建立任务规划问题的马尔可夫决策模型。针对空间站运营短期任务规划中的复杂约束满足问题,结合深度强化学习技术,提出基于深度确定性策略梯度算法的空间站复杂约束处理方法,该方法能够克服启发式方法需要人为经验设定的限制,有效解决空间站短期任务规划约束满足问题。研究了基于深度强化学习算法的空间站任务规划优化方法。在解决空间站短期任务规划约束满足问题的基础上,根据规划问题的优化需求,建立空间站运营短期任务规划优化模型;结合深度确定性策略梯度算法经验池的设定,以最优化任务方案收益性为例,提出基于示范算例的短期任务规划优化方法,示范算例的添加能够有效提高规划方法的搜索效率与收敛稳定性。研究了基于深度强化学习算法的空间站任务重规划方法。针对空间站任务重规划问题,分析问题特点,提出切合实际的空间站任务重规划问题优化指标;结合深度强化学习模型同类问题可复用的特性,研究了深度强化模型再训练技术,以此为基础,提出基于深度确定性策略梯度算法的空间站任务重规划方法,给出具体问题处理流程,并通过仿真算例分析了该方法的具体性能。论文紧密贴合我国载人航天工程建设实际,结合近年飞速发展的深度强化学习技术,对空间站运营短期任务规划及重规划问题进行研究,提出对应的智能规划方法。论文的相关研究成果进一步补充发展了我国空间站运营管理技术,可为我国空间站技术智能化发展提供新的思路。
其他文献
多机器人环境探索问题作为机器人研究领域的重要分支,旨在指导多机器人高效协同完成环境认知,被广泛应用于工农业生产。长期以来,该问题的研究主要基于随机、贪心策略等,虽有一定成效,但仍面临以下问题:(1)传统探索策略由于手工编码规则的局限性,在多机器人系统中难以利用环境结构等抽象信息做出高效决策和协同;(2)由于环境的变动或者规划的误差,机器人在移动过程中可能会受到未知障碍物等非预期状况的影响。针对这些
学位
随着人工智能技术的又一次爆发性增长,智能机器人正从传统工业制造领域向日常生活的各个方面迅速扩展。如何设计性能更好、泛化能力更强的智能控制算法,已经成为学术界和工业界的热点问题。近年来基于深度学习、强化学习的智能控制算法已经成为解决该问题的一个重要研究方向。智能体路径规划是智能控制领域中的一个典型问题,旨在规划一条从起点到目标点的无碰撞路径,同时优化性能指标,使得成功移植到真实环境中进行实际应用。为
学位
主观幸福感研究成为当下研究热点之一,专家对如何通过积极设计实现用户主观幸福感的提升展开了深刻讨论,相关理论研究与实践设计也持续更新。积极设计专注于用户主观心理感受,其最终目标是创造积极体验,进而提升用户主观幸福感。由此,在主观幸福感研究加速发展的当下,本研究将尝试在积极设计理论的指导下,产出设计策略,为提升用户主观幸福感研究贡献力量。本文研究方法及过程:第一,借助文献研究,对积极心理学的定义、演变
学位
深度学习是一种能自主学习样本数据的高阶非线性特征的人工智能算法,已在目标的分类识别、检测等任务中取得了令人瞩目的效果;矩阵信息几何是在矩阵流形上采用微分几何方法处理信息科学中的非线性问题的一套理论体系,其通过深入挖掘并利用样本数据的内蕴几何信息,在信息科学各领域中展现出了巨大的发展潜力。本文针对弱目标信号检测问题,以矩阵信息几何和深度学习为基础,研究了基于深度时频特征矩阵流形网络的信号检测方法、基
学位
随着我国主要矛盾的变迁,社会治理所要面临的主要任务也在发生变化,基层治理作为整个社会治理体系的基础越来越受到重视。经过近20余年的实践,社会工作在基层社会治理中的专业优势获得了验证,在此基础上为了“打通社会治理的最后一公里”,乡镇(街道)社工站的建设成为了国家为应对基层治理难题的新探索。乡镇(街道)社工站的建立是民政部对于社会工作这支社会力量的重要肯定,也无疑为社会工作发展较为薄弱的L地区带来了新
学位
当前我们正处于数字技术新兴发展的时代,影像更是最受人们欢迎的传播媒介,无论是文化产业中的电影、电视剧还是消费领域的直播、购物介绍、自媒体在各软件平台呈现出的蓬勃态势都证明着影像已与人们的当代生活紧密相连,影像技术的应用也普及到了群众之中。在影像媒介繁荣进步的态势之下,艺术领域也深受其冲击,转化呈现出多样化发展趋势,影像艺术的表现形式及媒材也随之转化,甚至细分出了不同的艺术探索方向。本文主要利用理论
学位
软件漏洞挖掘是网络空间安全领域的重要研究内容。其中,模糊测试是目前应用最广泛的一种软件漏洞挖掘方法,且并行化是提高模糊测试效率的一个重要途径。然而,大部分模糊测试方法仅针对单核测试环境而设计,其性能优势难以拓展到并行环境下。此外,现有模糊测试并行化方法存在测试重复度高、计算资源利用率低等问题。因此,为充分发挥计算资源效能,提高模糊测试对大中型软件的漏洞挖掘效率,研究面向软件漏洞挖掘的高效模糊测试并
学位
刺绣是中国古代丝绸艺术的重要组成部分,是我国劳动人民在漫长生产实践中发明创造的。中国刺绣不仅历史悠久,而且工艺精湛、技法繁多,在全世界享有盛誉。环编绣便是中国古代刺绣这座百花园中的一枝奇葩。环编绣又被称为编绣或环针绣,它是编织与刺绣两种技艺相融合的产物,兼具编织物与刺绣的双重属性。环编绣中的环编针与环编织物中的环编织技法既有相同之处又有区别,从时间上看,环编织物的出现早于环编绣,目前已知最早的环编
学位
皮影艺术是中国十大民间传统艺术之一,有着悠久的历史文化背景,它将美术工艺与戏曲唱腔完美的融合在一起。皮影艺术的形式美就是指皮影外观样式的美感,包括人物造型、镂空纹饰、面部刻画等。马克思主义理论认为形式美就是物品自身的特点,和谐和规律性就是形式美的主要构成,例如一件物品的线条、用色,将其按照一定规律进行组装,就具备了独特美感与美学特征。装置艺术是当代较为前卫的艺术表现形式,不论是从其展现形式、语言表
学位
声速剖面(Sound Speed Profile,SSP)能表达声速随海水深度变化的情况,是影响水下声传播计算最重要的环境参数之一。受海流、日照和内波等因素影响,声速剖面往往具有时间演化特征和统计特征。基于水听器阵列的声压观测数据对时变声速剖面进行序贯反演属于前沿研究问题,算法过程复杂、计算量庞大。本文在经验正交函数(EOF)表征方法的基础上,将时变声速剖面的反演问题转化为基于马尔科夫过程的状态空
学位