基于时控微分动态逻辑的可信强化学习方法研究与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:snmydmyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于最近几年深度神经网络的发展,强化学习,特别是结合了深度神经网络的深度强化学习,因高效率而备受关注,已经在各领域中都获得了广泛的使用。然而,相关方法很难在安全攸关的系统中单独使用,因为它们的未知性,特别是运用了深度神经网络的深度强化学习,其网络的黑盒特性,使得它不能够保证系统的安全。另一方面,由于安全攸关系统大多都是混合系统,这使得人工设计和开发其中的某些核心部分时会非常复杂,若是能够引入强化学习方法,可以很大程度上提升工程的效率。可信强化学习指的是使用后不仅可以保证系统的安全性,还可以充分利用强化学习算法带来的高效性的这类强化学习方法。如何将可信强化学习运用到安全攸关的系统是一个充满挑战的问题。目前已经有一些方法将强化学习引入到了安全攸关系统中,包括使用约束、探索部分状态空间等,然而这些方法只能降低风险,并不能完全保证安全。一个比上述方法更好、更加现代的方法,是将强化学习与基于严谨的数学理论的形式化方法相结合,来保障系统的安全。然而,已有的此类方法还存在缺陷,在应对不断变化的复杂环境时会降低效率。本文主要有以下贡献:(1)提出了时控微分动态逻辑来表达系统的性质。该逻辑从时间的角度扩展了微分动态逻辑,和原本的逻辑相比,时控微分动态逻辑是一个更加灵活的逻辑,特别是用于解决基于通信的系统之上的问题。(2)基于时控微分动态逻辑,提出了一个可信学习框架。该框架可以将用时控微分动态逻辑描述的系统表达式转化为运行时监视器,同时结合本文提出的可信混合控制算法一起使用,来保障系统的安全性和高效性。(3)设计了基于通信的自主控制系统模型,并在此基础上设计了针对本文提出的可信学习框架的实验,用以验证其可行性和有效性。本文的意义在于提出了一种新的逻辑来描述混合系统,同时利用本文提出的算法和一些已有的工具,建立了一个可将可信强化学习运用于安全攸关混合系统的框架,并在效率上突破了目前最好的算法。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
课程思政是高等教育培养高质量人才的重要任务。分析化学作为一门融合了化学、物理、材料和数学等多个学科的交叉学科,在大学生的思政建设中至关重要。本文以体外诊断技术为例,立足分析化学理论和实验知识点,挖掘其中的思政映射与融入点,提出了分析化学教学改革的方法,为分析化学“课程思政”教学改革提供借鉴经验。
学位