【摘 要】
:
经典Q-learning强化学习模型中学习率为一固定参数,无法有效反映认知学习的动态过程。提出了一种将学习速率表征为时变参数的Q-Learning强化学习模型,给出了利用近期历史行为
论文部分内容阅读
经典Q-learning强化学习模型中学习率为一固定参数,无法有效反映认知学习的动态过程。提出了一种将学习速率表征为时变参数的Q-Learning强化学习模型,给出了利用近期历史行为数据估计阶段性学习速率的方法。为了评估验证该模型的性能,设计了条件刺激与操作行为奖励无关→相关→无关三个阶段动态试验范式,用以观察和分析鸽子在随机强化、固定强化,以及固定强化关系消退等不同条件下的学习行为变化过程,采用动物触屏行为系统完成了3只鸽子颜色刺激-啄屏抉择认知训练,利用训练过程中不同session的行为数据对动态学习
其他文献
通过Mo(CO)6的热分解制备了Al2O3薄膜负载的金属钼模型催化剂,并采用热脱附谱(TDS)和X射线光电子能谱(XPS)原位研究了CO在金属态Mo/Al2O3模型催化剂表面的化学吸附.结果表明,
研究了阳离子表面活性剂四丁基溴化铵(TBAB)和十六烷基三甲基溴化铵(CTAB)对TiO2光催化降解艳红6B(R6B)的影响,讨论了表面活性剂与R6B的相互作用,给出了二者与TiO2之间的吸附
目的探讨益气活血法治疗早期糖尿病肾病(DN)的临床疗效。方法选择早期DN患者72例,随机分为观察组、对照组各36例,对照组采用常规西药和基础治疗,观察组联合口服益气活血中药
通过单位键指标-二次指数势(UBI-QEP)方法估算反应的表观活化能进行反应机理的随机模拟,并结合实验结果研究了富氧条件下Pd基催化剂上H2还原NO的反应. 结果表明,反应的控制步
以玉米淀粉(CS)为原材料,采用加热后冷藏溶剂交换法制备回生淀粉(MS)。通过静态吸附实验,考察了初始p H、投加量、铀初始浓度及温度等因素对MS吸附U(VI)的影响。试验结果表明,p H值
以γ~Al2O3为载体,采用常规浸渍法制备了负载型CuCl2-KCI-LaCl3三组分催化剂,并研究了其对乙烷氧氯化反应的催化性能.结果表明,该催化体系中乙烷的转化率较稳定,但随着反应时间的延
在不使用有机模板剂和孔调节剂的情况下,以无机盐为原料制备了锆和钛修饰的硅铝介孔材料及担载铂的电子-酸性双功能介孔材料. 激光粒度仪和N2吸附-脱附等温线表征的结果显示,
自从光催化技术应用于水处理以来,光催化反应器的研究就有了一些报道.本文对影响光催化反应器效率的因素如光源种类、反应器结构、催化剂状态等进行了分析,总结了近年来国内
目的探讨微小RNA-101(miR-101)对胃癌化疗耐药的影响及其机制。方法选择人正常胃黏膜上皮细胞GES1(以下称GES1细胞)、胃癌细胞SGC-7901(以下称SGC-7901细胞)、顺铂耐药胃癌细