【摘 要】
:
深度强化学习在人工智能领域受到广泛关注。最近的研究结果表明,经验回放策略对深度强化学习的学习效果有较大的影响。然而,如何在深度Q值网络中选择合适的样本并且经验回放
论文部分内容阅读
深度强化学习在人工智能领域受到广泛关注。最近的研究结果表明,经验回放策略对深度强化学习的学习效果有较大的影响。然而,如何在深度Q值网络中选择合适的样本并且经验回放仍然是一个有待解决的问题。针对这一问题,本文提出了一种新的基于自适应权重双DQN的深度强化学习方法。首先,针对DQN中Q值过大的问题,提出了一种基于激活函数、优化算法和损失函数的优化双DQN。其次,在经验回放中采用自适应权重策略实现均衡式经验回放,设计了三种权重影响因子,包括网络结构、样本的回报值和样本的使用次数,避免了采样过程中的过拟合和欠拟合现象。第三,将提出的均衡式经验回放策略应用到其他基于回放机制的神经网络中,包括Dueling DQN和DDPG等,自适应地选择合适的样本从而提高训练样本的利用效率。最后,在Atari 2600平台上进行了仿真实验去测试AWDRL的实验效果,并与深度Q值网络、优先级经验回放、PER+、PER++和深度课程强化学习等最先进的方法进行了比较。实验结果表明,所提出的自适应权重深度强化学习比现有的方法具有更高的性能。
其他文献
植物品种权作为种业领域的知识产权,对于提高粮食安全、农业发展和生态可持续发展有着至关重要的作用,其资本化有利于植物品种权快速向现实生产力转化,实现技术与经济的有机结合,为种业企业获取更多利润,同时使我国种业企业在面对欧美等种业巨头时赢得更多的竞争优势,打造国际市场的主体地位。本文从识别植物品种权资本化运营风险影响因素出发,利用系统动力学的方法和原理对植物品种权资本化运营风险进行建模与分析,探讨各风
制造业是国家的支柱产业,然而我国制造业大而不强,迫切需要转型升级以实现技术的追赶与超越。技术获取型海外并购被认为是中国制造业解决产业技术创新问题的关键手段。目前,
党的十九大以来,以习近平为核心的党中央提出了决胜全面建成小康社会的“三大攻坚战”:防范化解重大风险、精准脱贫、污染防治,其中科学合理地管理地方政府债务风险是打好防
碳纳米纤维(CNFs)具有大的比表面积、高的长径比、良好的导电性以及独特的一维纳米结构等特点,在储能、催化和传感器等方面具有广阔的应用前景。并且碳纳米纤维具有基础石墨面
Ⅰ型干扰素是天然免疫系统中发挥关键作用的细胞因子。Ⅰ型干扰素受体(Interferon-α/β receptor,IFNAR)结合配体Ⅰ型干扰素后激活下游JAK-STAT等信号转导途径,诱导干扰素诱导基因(Interferon stimulated gene,ISG)转录。低亲和力Ⅰ型干扰素受体 1(Type Ⅰ IFN receptor 1,IFNAR1)是保障完整IFNAR活化必不可少的组成部
生物冶金技术具有成本低、环境友好等传统冶金方法不能比拟的优势,在处理低品位矿石方面应用前景广阔,对我国的可持续发展具有重要意义。生物浸矿伴随着铜离子的不断溶出积累
目的:通过收集2008年2月4日至2018年2月3日,即戊子年初之气至丁酉年六之气共10年于我院住院的确诊为冠心病患者的住院信息,包括入院时间、出院诊断等,运用运气学说相关理论作为指导,使收集的病例按照五运六气进行归类,并总结冠心病患者发病的干支运气的规律,探讨不同运气时段是否能成为冠心病发病的预测指标,从而可佐证中医运气学说在临床预防冠心病的实用性,还可使冠心病的辨证论治融入运气学说的观点,旨在
Modelica组件连接图直观反映了模型组件之间的拓扑连接关系,是进行可视化建模的重要基础。利用Modelica组件视图进行建模时需要人工拖拽组件并手动定位与连线,当组件与连线数目较多时工作繁琐,另一方面CAD三维装配模型自动生成动力学模型并导入Modelica组件连接图时也需要自动化布图工具对组件进行定位,因此进行Modelica的组件连接图自动布图研究是十分必要的。本文针对自动布局和自动布线两
肠道病症在早期无症状或无明显症状,且现有诊断方法局限性较大,不能进行准确判断。由于病变区域与正常区域的电导率等信息不同,可利用电阻抗成像技术(Electrical Impedance T
得胜沟钨铜矿区位于马关县城东部约10km,处于富宁-那坡被动陆缘与都龙变质核杂岩结合部位,矿区地层岩性主要为上元古界新寨岩组石英二云片岩;构造主要以F_0剥离断层及北东向断层为主;岩浆岩出露晚志留世(S_3)片麻状中细粒花岗岩和燕山期老君山花岗岩(γ_53)。其地处滇东南老君山成矿区西侧,具备较好的铜、钨找矿前景。本次以构造地质学、矿床学理论等为基础,结合在布忙、田房、高井槽矿段开展详查、勘探工作