不确定环境下的分层学习和规划方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:willian1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提升无人平台的自主能力是未来智能化无人作战亟需解决的关键问题。无人平台自主能力的核心之一是其在不确定环境中自主学习和规划的能力。然而,智能体学习和规划过程中面临着两大难题:环境的不确定和问题规模的增大。环境模型不准确、行动效果不确定、环境动态变化等不确定因素,以及随着问题规模的增大导致状态空间大、动作空间大和任务周期长等特点,为智能体自主学习和规划带来了巨大的挑战。针对上述问题,本文以马尔科夫决策过程建模不确定环境中的学习和规划问题。在此基础上,以人类智能中的行为分层结构理论为出发点,将马尔科夫决策过程求解算法与行为/任务的层次结构有机结合,构成分层学习和规划的样式,在满足马尔科夫性质的不确定环境中对分层学习和规划方法展开研究。本文工作主要围绕两个研究问题展开,一是如何有效学习行为/任务的层次结构,提高智能体在未来任务中解决问题的能力;二是如何有效应用行为/任务层次结构,提高智能体的在线任务规划性能。论文主要研究成果如下:1.面向层次结构的学习问题,提出了基于内部激励的探索和学习算法。人类从婴儿时期开始,在内在动机的激励下不断探索环境,学习大量的运动和认知技能,这一阶段所学的技能虽大多数并非出于生物学上的即时需求,但是却显著提高了人类的生存和适应能力。基于这一生物现象,本文针对智能体在未知环境中的模型学习和分层技能学习问题,提出了基于内部激励的探索和学习算法。该算法结合了基于内部激励的探索策略、回报独立的增量更新规则以及交替模型学习和策略更新的方法,实现了对未知环境的逐步建模和增量的分层技能学习。2.面向单对多智能体对抗任务中的层次结构应用问题,提出了基于MAXQ引导的分层蒙特卡洛在线规划方法。在单对多智能体对抗任务中,由于问题复杂度随着规划时间呈指数增长,导致智能体无法进行有效的行为决策,针对该问题,本文提出了基于MAXQ引导的分层蒙特卡洛在线规划方法HMCTS-OP(Hierarchical MCTS-based Online Planning)。HMCTS-OP通过在MCTS(Monte Carlo Tree Search)算法中引入MAXQ分层任务结构,可以显著降低在线规划问题的计算开销,从而使得MCTS可以进行更加深入的搜索以找到更优的规划策略,提高算法性能。同时,HMCTS-OP通过纯采样的方式计算分层任务的回报,解决了在不确定环境下无法显式估算子任务的完整转移模型这一难题,扩展了算法的适用范围。3.面向多对多智能体对抗任务中的层次结构应用问题,提出了基于混合采样的多智能体分层在线任务规划方法。在多对多智能体对抗任务中,由于任务周期长,决策时间受限,状态空间和分支因子大以及环境动态变化、任务执行效果不可预知等诸多因素,导致计算复杂度过高,求解困难,无法满足在线规划过程中的实时性需求。针对该问题,本文提出了一种基于混合采样的多智能体分层在线任务规划方法。该方法将基于混合采样的蒙特卡洛在线规划方法融合进分层规划框架中,利用高层子任务引导MCTS的搜索过程,约束搜索空间,提高MCTS搜索效率。最主要的是,该方法提出了基于贪婪和Thompson采样的混合采样策略,加快了采样收敛速度,扩大了MCTS可应用问题的规模。4.面向人机协同任务中的层次结构应用问题,提出了基于元控制和底层控制的人机协同分层任务规划框架。在作战过程中,作战环境复杂,作战任务多变等不确定性因素,极大地限制了无人平台自主能力的发挥,降低了平台执行任务的可靠性。针对该问题,本文在OODA(Observe-Orient-Decide-Act)作战决策过程描述模型的基础上,以战术层面的任务规划为牵引,提出了基于元控制和底层控制的人机协同分层任务规划框架。有人指挥控制平台负责高层策略规划,粗粒度的指挥控制将大幅度降低对指控人员注意力和实时操控的需求,从而可以实现一人多平台(编组)的远程控制需求。无人平台负责底层自主行为决策,即底层控制,框架通过顶层规划策略引导底层自主行为决策过程,减小复杂环境对平台自主能力的影响。在任务执行过程中,高层策略规划模块和底层行为决策模块通过任务监控模块交替执行,从而将机器智能和人类智能有机结合,发挥人员和平台的最大协同作战效能。案例实验表明,该框架在任务的多个阶段都可以有效提高资源利用率和任务性能。
其他文献
家族企业作为人类社会一种古老而常新的组织形式,在世界范围内普遍存在,受到日益广泛的关注。在欧洲,早期的工业化便是伴随着家族企业的兴起而发展起来的,当时绝大多数企业都是家族企业或采用家族管理模式。即使在当代,家族企业仍然是所有企业中数量最为庞大的群体,也是经济增长中最为活跃的因素。改革开放以来,我国家族企业如雨后春笋般出现在广东、浙江、江苏等传统经济大省,在推动发展、促进创新、增加就业、改善民生等方
学位
资产证券化中道德风险导致的贷款筛选标准下降是2008年次贷危机的诱因之一,此后美国证券化市场迅速缩水,中国政府也暂停了资产证券化试点。随着美国次贷危机逐步解决,特别是中国第一阶段试点的效果得到验证,2011年中国政府重启试点,但伴随发行规模变大,信贷资产证券化基础资产的违约单数也在增加。究其原因,在结构化包装下,投资人难以穿透观察基础资产的质量,加之证券化交易供给方懈怠资产管理、尽职调查不充分、误
学位
身处充满变化和不确定性的环境中,团队主管经常会经历权力损失,即主管掌握的重要资源遭到损失,或成员对主管权力的合法性认可下降。这是主管乃至整个团队都经常面对的考验。然而,现有研究缺少对“权力损失”的足够关注,且少量的相关研究仅停留在权力损失对个体产生的各种负面影响上,缺少个体主动应对权力损失并重建权力的研究。另外,现有大多数研究仍秉持结构主义的权力观,静态地研究权力的影响规律,缺少从动态视角对权力有
学位
近年来,越来越多的实体企业热衷于购买理财产品、买卖有价证券、投资房地产、发放委托贷款、通过设立小额贷款公司或财务公司参与影子银行业务。这一非金融企业对金融市场的参与度日益增加、企业资金不断涌入金融领域的现象被称为企业“金融化”。由于金融投资的收益率远高于实体投资,企业配置金融资产能够在短期内改善企业的财务状况。然而从长期来看,对金融资产的过度投资容易挤出主营业务发展所需要的资源,阻碍企业竞争力的构
学位
2020年4月24号,中国行星探测工程“天问系列”正式启动,2020年7月31号,北斗全球卫星导航系统正式向全世界提供服务,我国太空活动加速发展。航天器的姿态控制和信息处理需要大量的集成电路系统。太空中有很多宇宙粒子,这些太空粒子对航天器内的集成电路造成不同程度的影响甚至破坏,因此我国空间技术对抗辐射高性能集成电路提出迫切要求。随着科学技术的进步,半导体器件尺寸等比例缩小,单位面积上集成的器件数目
学位
Ir是一种熔点高且氧渗透率极低的贵金属材料,已应用于航天器推进系统高温部件的热防护,在超高温(>1800℃)条件下较传统Si系超高温陶瓷有独特优势。但受制于Ir在非平衡环境下极高的热响应,其在高超声速飞行器热防护领域的应用受到了限制。针对此问题,本文通过表面合金化改性制备出Ir-X合金层,有效降低了Ir涂层的催化系数,并提高了涂层发射率,改善了涂层非平衡环境下的烧蚀性能。围绕这一目标,论文从改性元
学位
多输入多输出(MIMO)雷达,基于发射分集技术可获得远大于其物理阵元数的系统自由度(DOFs),在成像方面相较于传统雷达成像技术具有独特的优势。正交发射波形集是MIMO雷达成像应用的重要基础。正交频分复用(OFDM)是现代通信中常用的一种多载频传输技术。利用OFDM信号多子载频间天然的正交特性,可以实现MIMO雷达理想的正交发射,从而有效避免多个发射通道间的串扰,最大程度地提高MIMO雷达系统的成
学位
精密、可靠和实时性好的动对动相对定位技术对于航天器空间交会对接、飞机协同加油、车辆智能交通和舰载机着舰引导等应用至关重要。全球卫星导航系统(Global Navigation Satellite System,GNSS)以其全球覆盖性、全天候可用性和较好的长期精度,是目前实现动对动相对定位的主要手段。然而,GNSS导航信号较为脆弱,容易受到遮挡和干扰,并且GNSS接收机的采样率一般较低。惯性导航系
学位
后摩尔时代,一方面,工艺尺寸的继续缩小变得越来越困难,另一方面,传统处理器结构的创新也面临诸多瓶颈。为了继续提高数据处理的性能来满足日益增长的计算需求,一些面向特定领域的专用计算结构被提出。基于伊辛模型的CMOS型伊辛架构将组合优化问题映射为伊辛模型,通过伊辛模型的基态搜索过程高效求解组合优化问题。当前CMOS型伊辛架构的研究聚焦于降低自旋更新电路的硬件开销,提高自旋的集成能力,使其支持大规模的现
学位
中低速磁浮列车作为一种新型的城市轨道交通工具,越来越得到公众的关注和认可。北京和长沙已建立示范线并开通运营,广东清远和湖南凤凰也正在建设中低速磁浮旅游线。悬浮系统作为中低速磁浮列车的关键系统之一,其安全性和可靠性对中低速磁浮列车的运行具有十分重要的影响。其中,故障预测与健康管理(Prognostic and Health Management,PHM)技术作为一种提高系统运行安全的有效手段,受到了
学位