基于平均神经网络参数的DQN算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:wmf_china
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN)。该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选
其他文献
介绍了利用单片机和USB(Universal Serial Bus)接口芯片,在低成本的前提下实现了单USB口带双PS/2口的转接设备。由于一个USB口带了两个PS/2口.大大节省了主机的接口。因而在单主机
香菇是我国栽培量最大的食用菌种类,在我国已有800多年的人工栽培历史。近年来,香菇生产工厂化发展迅猛,生产规模及年产量逐年递增。香菇工厂化生产模式主要为工厂化生产制棒
“你爸妈一个月挣多少钱啊?别怪我瞧不起你!”近日,网传天津某教师对比家长收入歧视学生的言行,引发社会广泛关注。27日,当地教育局通报称,给予涉事教师肖某某党内严重警告处分,降低岗位等级,依据《教师资格条例》撤销其教師资格,调离岗位;对学校主要负责人进行问责,给予党内警告处分。(2月27日 《北京日报》)  教书育人是人民教师的本分,有教无类是自古以来就被人们尊崇和奉行的教育理念和为师之道。拿家长的
我国作为一个人口大国,粮食作为国民生产保障的基础,其有着十分重要的意义和作用,尤其在当前经济新常态的背景下,我国粮食经济发展更是面临着不同的发展形势.在市场经济发展
随着经济的飞速发展,速冻食品的发展也不断加快。在速冻食品的品质和销量得到不断提高的同时,也存在一些问题有待改善和提高。速冻饺子的馅料主要是肉类和蔬菜,速冻水饺冷冻
本文针对燃烧驱动的连续波HF化学激光器的特点,通过先进的虚拟仪器技术和LabVIEW 8.0编程,设计研究了一套测控系统。该系统能控制激光器的气流压力,实时地采集和分析相关测试数据,并能显示,保存最终测试结果。
十八大报告提出“把立德树人作为教育的根本任务,培养德智体美全面发展的社会主义建设者和接班人”,将“培养什么人,怎样培养人”的问题摆在了突出位置。从此,如何“立德树人”成为各地、各校面临的新课题。  北流市是人口大县、教育大县,现有中小学在校生20余万人,其中约65%为农村学生,农村学生中又有约10%为留守儿童,生源情况较为复杂。为实现立德树人目标,我市在2017年立项了广西教育科学“十三五”规划课
针对UDS诊断协议在电动汽车电机控制器中的应用问题,利用UDS诊断协议中各项服务的功能,同时根据电机控制器的功能需求,实现UDS诊断协议在电机控制器中的应用。本文首先介绍了