基于受限模型的安全强化学习研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yuesiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为一种机器学习方法和范式能够较好地解决序贯决策问题。由深度神经网络和强化学习方法组成的深度强化学习方法同时具备了二者的优点,在拥有较高感知能力的同时又具有较好的自主决策能力,可以更好地解决大规模空间或连续空间决策感知类任务。强化学习方法也被应用于多智能体系统中,用来解决多智能体序贯决策问题。强化学习方法虽然得到了广泛的应用,但是却很少考虑甚至没有考虑任务的安全问题。在现实应用中,保障智能体的安全是重要的,如果让智能体进行盲目地试错探索,智能体可能会进入危险状态,导致不可逆的损害,甚至会损害交互过程中的其他设备,破坏交互环境。针对上述问题,以受限马尔可夫决策过程和受限马尔可夫博弈为基础框架分别对不同的强化学习算法进行改善,提出以下三部分研究内容:(1)针对Q-Learning算法在训练过程中难以保障智能体的安全这一问题,提出基于受限马尔可夫决策过程的安全Q-Learning算法。安全Q-Learning算法将构造的约束函数与Q-Learning算法相融合后重新构造智能体选择动作的策略,使智能体在选择动作的同时满足安全约束函数,限制智能体在安全领域内进行探索学习。带约束函数的安全Q-Learning算法结合拉格朗日乘数法更新求解动作的策略,使算法能够被高效求解。实验结果表明,安全Q-Learning算法可以有效降低智能体的危险性。(2)深度强化学习方法是解决大规模空间及连续状态动作空间序贯决策问题的一种行之有效的方法。然而,智能体在探索利用过程中会不断进入危险区域,这不仅会降低智能体的学习效率,使算法更新缓慢,而且还会对智能体造成不可逆的损害,甚至会损害环境,阻碍连续空间深度强化学习方法在实际中的应用。针对此,提出基于受限马尔可夫决策过程的连续空间安全深度强化学习算法,构造多维约束函数并将约束融入到连续空间深度强化学习模型中。结合罚函数思想改变优化准则重新构造优化目标函数以训练网络,进而从算法训练开始就降低智能体陷入风险的频率,保障智能体的安全。实验结果表明,连续空间安全深度强化学习算法能够有效降低智能体陷入危险区域的频率和提高算法的训练效率。(3)为保障多智能体环境中所有智能体的安全,提出基于受限马尔可夫博弈的安全多智能体强化学习算法。构造多智能体系统下的约束函数并将约束函数融入多智能体强化学习模型中,进而重新构造模型的优化目标函数指导策略的更新,保障智能体的安全。实验结果表明,安全多智能体强化学习算法能够有效减少每个智能体进入危险状态的数量,提高每个智能体在每情节的奖赏值。
其他文献
党的十八届三中全会提出,推进国家治理体系和治理能力现代化,由管理到治理,体现出我们党治国理政理念的根本转变,更多体现出社会各主体的积极性和参与性。统一战线作为中国共产党三大法宝之一,伴随着中国革命和建设的进程,实现了由革命统一战线到爱国统一战线的转变,在新时期,统一战线发挥自身联系广泛、协调关系、渠道畅通等优势,在增进全社会共识、协调化解社会矛盾、畅通群众政治参与渠道、促进非公经济健康发展等方面发
学位
花生作为生活必需品,在国民经济中占据重要地位。但近年来,我国花生市场价格波动异常,导致市场经济受损,给人民生活和农业生产经营带来极大困扰。因此,结合市场经验分析花生价格影响因素,对花生价格进行有效的预测,能够为政府制定经济政策和调控花生价格提供科学依据,对促进农业生产和市场稳定发展具有现实意义。本文首先介绍了课题研究所用到的主要理论与技术,并从国家统计局官网公示数据和《全国农产品成本收益资料汇编》
学位
桂林是座有着悠久历史的文化名城,居住着壮、侗、苗、瑶等多个少数民族,它拥有着独特的地域文化与民族特性。想要深入了解一个民族的历史文化,艺术无疑是一把最好的钥匙。广西作为歌海的故乡,歌谣的艺术已经融入到人们生活的方方面面,字里行间皆浓缩着人间的喜怒哀乐,其作为一个巨大的文化载体高度体现了地域的民间智慧,俗语“饭养身来歌养心”就是歌谣价值的最真实写照。在壮族“三月三”民族歌圩节中,山歌是其必不可少的活
学位
目的:通过观察治疗期间患者的症状、心功能、生活质量各指标的变化,评价蒙医药辩证治疗吉如很哈崩的临床疗效。方法:选取2020年12月-2021年12月在内蒙古民族大学附属医院蒙医心内科诊断为吉如很哈崩-柴布日哈崩患者,将标准入的60例患者随机分2个组,对照组、治疗组。每组30例,疗程4周。对照组治疗方案:螺内酯片20mg日一次口服,托拉塞米10mg日一次口服,马来酸依那普利片10mg日一次口服。治疗
学位
语言能力占据英语学科素养的首位,语法是语言学习与运用的重要内容,也在英语教学中占据重要地位。传统的语法教学大多致力于统一化语法规则的传授,忽略学生个人语法能力的培养和提升,容易导致学生逐渐丧失对于语法的学习兴趣。霍华德·加德纳提出的多元智能理论提倡注重个人差异,强调人的多项不同智能的发展。检索近些年来的研究发现基于多元智能理论的语法教学研究比较少见。因此本研究以多元智能理论为基础构建语法教学设计(
学位
随着学术界与企业界对制造业服务化研究与实践的深入,面向供需价值共创的混合产品提供愈受业界的青睐。然而,混合产品提供前的生成受客户知识的表达与企业吸收能力的约束;混合产品提供后的价值创造受企业知识释放的意愿与客户对知识诉求的影响。由此,供需之间围绕混合产品的提供前后呈现出了不同类型的知识缺口。因此,混合产品提供前后知识缺口形成原因的深层次揭示及其弥合策略研究成为本文研究的主要议题。围绕上述议题,本文
学位
含氟膦酸酯作为一类优良的天然磷酸酯模拟物,在pKα值、键角、极性方面均与天然磷酸酯相当。它在生物体内能够有效地避免被磷酸酯酶的识别水解而稳定存在。氟原子的引入使得该类化合物具有独特的生理和药理活性,在医药、农药等领域得以广泛应用。其中α-单氟烯基膦酸酯的研究引起了人们浓厚的兴趣,α-单氟烯基膦酸酯不仅本身通过催化氢化可得到α-单氟膦酸酯-一类比二氟亚甲基膦酸酯模拟效果更好的天然磷酸酯模拟物。此外作
学位
目的:分析因慢性阻塞性肺疾病急性加重(acute exacerbation of chronic obstructive pulmonary disease,AECOPD)住院患者的临床资料,将其中合并侵袭性肺曲霉病(invasive pulmonary aspergillosis,IPA)人群与不合并 IPA 的 AECOPD 患者人群进行比较,探讨AECOPD合并IPA的危险因素及相关临床特征
学位
近年来,我国汉语国际教育的发展蓬勃有力,有关的教学和科研成果不断涌现,成果丰硕。汉语国际教育的重要目标在于提高汉语学习者使用汉语进行交际的水平,不同文化背景的人进行跨文化交际时,必然会涉及到语用文化,语用文化是人们在跨文化交际时,理解他人的重要因素,也是恰当得体表达自己的重要依据。同样地,汉语教材在汉语国际教育中的地位也至关重要,因为教材连接了教师与学习者,是教师传授汉语知识的重要工具,也是汉语学
学位
背景与目的:近年来,积雪草酸由于广泛的药理活性尤其是抗肿瘤作用而备受关注,但其水溶性差、向细胞渗透能力低、口服生物利用度低等缺陷限制了它的应用。相关研究发现,肿瘤细胞来源的外泌体与相应来源的细胞有较高的亲和性,且能装载各种类型的药物,因而成为一种高效的靶向药物载体。目前未见外泌体包载积雪草酸的相关报道,因此本研究以食管癌细胞KYSE-150和TE-1为来源制备外泌体并包裹积雪草酸,探究其抗肿瘤活性
学位