基于双深度网络的安全深度强化学习方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:qingming_369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了
其他文献
本文从概念的提出,中试试验到生产运行,论述了一种新型超滤膜池"过滤式浸没超滤膜滤池"的结构和工艺特点,并展示了其在某水厂改扩建中的应用效果。该池型兼具澄清池和超滤膜
认知导师将认知心理学的原则融入到人工智能中,是围绕学生当前所学知识的认知模型而建构的。本文对认知导师的发展与应用及认知导师中的模型跟踪和知识跟踪进行了简要的概述,并
研究背景和目的:乳腺癌是女性最常见的恶性肿瘤之一。尽管中国相对西方国家属于低发地区,但近几年来的流行病资料显示,随着工业化的发展以及人们生活方式的改变,乳腺癌总的发
神经胶质瘤是最常见的中枢神经系统肿瘤,高级别胶质瘤具有极强的侵袭能力。因为这些肿瘤表现为一种弥漫浸润的生长模式,目前的治疗方法包括手术,放、化疗都不是很有效。即便
通过研究聚3,4-乙烯二氧噻吩/泡沫镍(PEDOT/NF)复合电极材料中活性物质PEDOT沉积量对超级电容器性能的影响,获得了PEDOT/NF复合电极最佳的电化学性能。采用电化学工作站循环
目的分析与探讨采用小剂量奥卡西平及喹硫平片联合治疗精神发育迟滞伴有行为障碍患者的效果,以及对其相关症状、生活质量和预后情况的影响。方法将82例精神发育迟滞伴有行为
<正>如何科学有效地化解巨大的地方政府存量债务,合理控制未来的政府负债形式与规模,使地方政府财政状况逐步恢复正常状态,是影响未来5~10年我国财政与金融发展格局的重要问
本文介绍如何运用概率母函数来求超几何分布的期望和方差
根据1978~2007年30年合川区的气象统计资料,采用旅游气候舒适度指标对其旅游气候资源进行评价。认为合川区风光秀丽,气候宜人,四季均可开展旅游活动,但最佳旅游季节是春秋季节