Achieving Safe Deep Reinforcement Learning via Environment Comprehension Mechanism

来源 :电子学报(英文版) | 被引量 : 0次 | 上传用户:alexshinichi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep reinforcement learning (DRL), which combines deep learning with reinforcement learning, has achieved great success recently. In some cases, however, during the learning process agents may reach states that are worthless and dangerous where the task fails. To address the problem, we propose an algorithm, referred as Environment comprehension mechanism (ECM) for deep reinforcement learning to attain safer decisions. ECM perceives hidden dangerous situations by analyzing object and comprehending the environment, such that the agent bypasses inappropriate actions systematically by setting up constraints dynamically according to states. ECM, which calculates the gradient of the states in Markov tuple, sets up boundary conditions and generates a rule to control the direction of the agent to skip unsafe states. ECM is able to be applied to basic deep reinforcement learning algorithms to guide the selection of actions. The experiment results show that the algorithm promoted safety and stability of the control tasks.
其他文献
目的探究对老年慢性心功能不全患者行沙库巴曲缬沙坦钠片治疗的临床疗效。方法80例老年慢性心功能不全患者,依据随机数字表法分为观察组及对照组,每组40例。对照组患者接受常规治疗,观察组患者在对照组基础上加用沙库巴曲缬沙坦钠片治疗。比较两组治疗效果、6 min步行距离、左室射血分数(LVEF)、堪萨斯城心肌病患者生活质量量表(KCCQ)评分及不良反应发生情况。结果观察组治疗总有效率97.50%高于对照组的75.00%,差异具有统计学意义(P<0.05)。治疗后,观察组患者6 min步行距离(343.01±
目的探究超声引导下髂筋膜阻滞对膝关节置换术后的镇痛效果。方法62例预接受膝关节置换术的患者,随机分为甲组和乙组,每组31例。甲组患者在手术前进行股神经阻滞麻醉,乙组患者在手术前进行超声引导下髂筋膜阻滞。比较两组患者镇痛效果、镇静和舒适度及不良反应发生率。结果术后1、2 h,两组视觉模拟评分法(VAS)评分比较差异无统计学意义(P>0.05);术后6、12、24、48 h,乙组VAS评分分别为(3.01±0.85)、(2.01±0.52)、(1.29±0.34)、(0.64±0.11)分,低于甲组的(
Channel estimation plays a significant role in the Inter-carrier interference (ISI) mitigation and symbol detection in Orthogonal frequency division multiplexin
目的探究老年颅脑手术麻醉诱导中应用依托咪酯和丙泊酚的疗效。方法68例接受颅脑手术的老年患者,随机分为常规组及实践组,每组34例。常规组实施依托咪酯与七氟烷联合麻醉,实践组实施依托咪酯与丙泊酚联合麻醉。比较两组患者术前、术中及术后2 h的灰质血流量、心率、血氧饱和度、收缩压、舒张压、平均动脉压。结果术前、术中与术后2 h,两组患者灰质血流量对比,差异无统计学意义(P>0.05)。术前及术后2 h,两组患者的心率对比差异无统计学意义(P>0.05);两组患者术中的心率均低于本组术前,术后2 h的心
目的评估冠修复与根管同步治疗隐裂牙牙髓炎的临床效果。方法70例隐裂牙牙髓炎患者,随机分为对照组与观察组,各35例。对照组实施根管充填后冠修复治疗,观察组实施冠修复与根管同步治疗。比较两组疗效、初次就诊及治疗1周的疼痛程度评分、治疗满意度。结果观察组治疗总有效率为97.14%,高于对照组的82.86%,差异有统计学意义(P<0.05)。治疗1周后,观察组疼痛程度评分为(1.79±0.40)分,低于对照组的(3.55±0.48)分,差异有统计学意义(P<0.05)。观察组治疗满意度为97.14%,
目的探讨简易负压吸引技术对糖尿病足患者的应用效果。方法70例糖尿病足患者,按照随机数字表法分为对照组和试验组,各35例。对照组患者采取常规创面处理,试验组患者在对照组基础上使用简易负压吸引技术。比较两组患者临床疗效、疼痛情况、预后指标(换药次数、创面愈合时间)及生活质量。结果试验组换药次数(10.27±2.74)次少于对照组的(25.36±2.47)次,创面愈合时间(28.45±5.78)d短于对照组的(50.41±7.10)d,差异有统计学意义(P<0.05)。试验组临床总有效率为91.43%,高
目的探讨经腹部浅表超声诊断急性阑尾炎的应用价值。方法选取100例疑似急性阑尾炎患者作为研究对象,分别采用浅表超声、腹部超声、腹部浅表超声进行检查。对比三种检查方法的诊断效果及对急性阑尾炎的检出情况。结果腹部浅表超声诊断敏感度96.00%、特异度100.00%、阳性预测值100.00%、阴性预测值96.15%均高于浅表超声的68.00%、56.00%、60.71%、63.64%及腹部超声的56.00%、66.00%、62.22%、60.00%,差异有统计学意义(P<0.05)。腹部浅表超声对急性阑尾炎
目的探讨利奈唑胺辅以常规化疗对广泛耐药肺结核患者疗效的影响。方法80例广泛耐药肺结核患者,按照随机数字表法分成对照组(42例)及观察组(38例)。对照组给予常规化疗方案治疗,即丙硫异烟胺肠溶片、盐酸左氧氟沙星胶囊、盐酸乙胺丁醇片、吡嗪酰胺片、硫酸阿米卡星注射液;观察组在对照组基础上加用利奈唑胺注射液治疗。对比两组治疗效果、不良反应发生率及复发、转归情况。结果观察组治疗总有效率为92.11%高于对照组的71.43%,差异有统计学意义(P<0.05)。两组不良反应发生率对比,差异无统计学意义(P>
This paper studies semantic segmentation primarily under image-level weak-supervision. Most stateof-the-art technologies have recently used deep classification networks to create small and sparse disc
目的 分析重度急性有机磷农药中毒患者实施院前急救的效果.方法 84例急性有机磷农药中毒患者,随机数字表法分为研究组与对照组,各42例.对照组仅给予常规急救治疗,研究组在常