面向开放环境下的执行时策略评估与策略演进方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hr2037283
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能时代下,强化学习是赋予智能体在开放多变的物理环境中具有自主决策能力的重要手段。然而,由于强化学习在训练过程中需要智能体与环境进行大量交互才能学得有效策略,导致其在众多真实物理场景中难以应用。考虑到模拟器具有采样成本低廉的特点,所以我们借助模拟器进行策略的辅助训练。而复杂多变的开放环境与难以避免的仿真误差增加了策略重用的难度,使得模拟器中训练的策略在开放目标环境中执行时的表现性能常常大打折扣,以致无法完成任务目标。基于此,本文提出对执行时策略进行实时评估的方法,以判断当前状态场景是否适合由策略执行来完成任务目标,对于不适合策略执行的场景,对人类发起预警,转交人类专家接手处理当前场景。进一步地,本文提出执行时策略演进方法,使模拟器中训练的策略可以根据目标环境进行自我演进,从而最终适配目标环境,以完成任务目标。在对开放环境下的执行时策略评估与策略演进方法中的核心问题进行展开研究后,取得如下成果:1.在策略执行时评估方面,针对开放环境下由模拟器的仿真误差所带来的目标环境中策略重用时表现性能大幅下降的问题,提出基于生成对抗学习的策略置信度评估方法(CEPO),其可以使策略在目标环境中执行时,由置信度网络和策略同时实时作用于目标环境状态,并由置信度网络给出当前环境状态的置信度评估,当置信度评估大于阈值时,由策略对当前状态进行动作控制,而当置信度评估小于阈值时,则对人类发起预警,转由人类专家对当前状态执行动作控制,尤其适用于对安全度和稳定性要求较高的实际复杂场景(如自动驾驶)。经实验验证,该方法可以有效对策略表现较好的状态给出较高置信度评估值,对策略表现较差或从未见过的环境状态给出较低评估值,使其在确保安全性和稳定性的前提下,一定程度上释放人类双手,适合人机协作的工作方式。2.在策略演进方面,针对策略评估后策略在目标环境中评估较差的问题,提出基于动作校正的策略演进方法(POSEC),其可以在目标环境中由智能体仅执行几个校正动作序列,便可以感知当前环境,并提取环境特征用以指导策略在重用时的自我演进,以快速适配当前目标环境,从而在目标环境中可以直接执行有效的动作控制以完成任务。经实验验证,在多种不同参数配置的环境中,相比于直接在目标环境中从零开始训练策略而言(百万级数量采样),该方法在策略重用时仅需要在目标环境中进行5个采样,便可以快速演进出有效策略。同时,该方法在经过多次重复实验后,可以证实校正动作的稳定性和有效性,经演进后的策略也可以作为更好的初始策略进行再训练,以继续提升目标环境下的策略性能。
其他文献
我国的犯罪工具没收制度作为刑法的一项总则性规定,1适用面十分广泛,涉及的犯罪类型更是复杂多样。但由于立法上的不完备,直接导致犯罪工具没收制度在司法运行中存在诸多问题。人们对私有财产的权利意识逐渐增强,这与犯罪工具没收不当间的冲突愈发激烈,由此可见,我国犯罪工具没收制度亟待完善。本文从司法实践中的具体案件出发,并借鉴其他国家或地区的相关规定,力图从多方面解决我国犯罪工具没收制度在适用中显现出的问题。
一直以来,“一事不再理”都被视为一项基本原则运用在民事审判中,诸如“违反一事不再理原则”“不属于一事不再理”等表达方式在裁判文书中数见不鲜。然而何为“一事”却始终没能达成共识,其与“禁止重复起诉”两个概念也未能详细区分。2015年,最高院出台的民事诉讼法司法解释首次对重复起诉现象进行了否定性规制,并明确了其认定标准。根据司法解释第247条的规定,前后两诉的当事人、诉讼标的以及诉讼请求三个构成要件均
公司资本制度作为公司法律制度的基石,在公司经营发展、股东投资以及维护债权人利益方面发挥着重要的协调作用,尤其是作为公司资本运行环节中重要一环的减资活动,更是涉及多方主体间的利益平衡。在当前认缴制背景下,注册资本与公司净资产时空上的分离导致减资行为变得更加隐蔽,公司减资情形也更加复杂。然而,我国减资立法没能随着资本制度变革的脚步同步跟进,缺乏在资本认缴制下对减资行为的针对性研究,未对相关法条做出修改
移动自组织网络(Mobile Ad Hoc Network,MANET)随着移动无线通信的发展日益成为研究的热点之一。移动自组织网络由于特殊的通信环境,面临着节点移动、资源受限、网络拓扑动态变化等原因造成的信息传输不够高效可靠的问题。同时,时延容忍网络(Delay Tolerant Network,DTN)因为网络密度稀疏和节点移动等原因导致网络中缺乏稳定的端到端连接,因此路由模式是尽力而为的,同
太赫兹(THz)波属于电磁波谱中还没有被完全开发的波段,可广泛应用于射电天文、无损检测以及宽带通信等关键领域。太赫兹功能器件、太赫兹发射源和太赫兹检测器是目前太赫兹技术研究的几个主要方向。由于小型太赫兹发射源的功率偏低,制约着太赫兹技术的发展,由此高灵敏度的太赫兹检测器的研究成了重中之重。本文主要研究了高温超导YBCO双晶结检测器在太赫兹波段的特性与应用。由于太赫兹信号频率较高,一般的频谱测量仪器
学位
随着社会对污水处理的投入越来越大,剩余污泥的产量也日益升高,剩余污泥的处置已经成为世界各国的难题之一。在众多的污泥处理技术当中,厌氧消化技术由于具有能耗少、运行费用低、实现能源回收等优点被广泛使用。然而,能源转化率较低、减量化效果不理想等问题限制了厌氧消化技术的进一步发展。研究表明,一些预处理手段和外源物质的添加能够提高厌氧消化的能源转化率。但目前这些研究主要集中于单因素研究,并且对厌氧消化的促进
国企改革40多年来,一直备受社会各界的关注。2013年11月,十八届三中全会之后,混合所有制成为了新一轮国企改革的突破口。2019年10月,十九届四中全会再次将混合所有制放在突出位置。因此,未来几年发展国企混合所有制改革仍然十分重要。在这种背景下,各行各业的国有企业根据政策导向和自身条件,选择不同的路径实施混改。引入战略投资者作为混改路径之一,不仅为国企提供了发展所需资金和资源,而且有利于优化公司
2015年《立法法》修改,新增加的第13条规定全国人大及其常委会可以根据改革发展的需要,决定就行政管理等领域的特定事项授权在一定期限内在部分地方暂时调整适用法律。暂时调整适用法律作为一项顶层设计手段以规范的形式确定下来,成为在法律体系内部推动制度变革的一种捷径。但《立法法》第13条对暂时调整适用法律各项要素的规定过于笼统模糊,难以保障暂时调整适用法律在实践中的规范运作。暂时调整适用法律的立法学研究
在中巴经济走廊下,BOT已经成为我国对巴基斯坦基础设施项目投资的主要方式,对推进我国与巴基斯坦的友好合作进程及中巴经济走廊建设有重要意义。但是,我国还没有颁布规制BOT投资方式的专项立法,我国投资企业对巴基斯坦BOT项目投资环境的了解并不彻底。中巴经济走廊下我国企业对巴基斯坦BOT项目投资面临仍着较大的风险,诸如巴基斯坦国内政局动荡,恐怖袭击与宗教极端主义安全事件频发,金融风险较大,对BOT项目运