基于经验知识的Q-学习算法

来源 :自动化技术与应用 | 被引量 : 0次 | 上传用户:lvyuxuan3652009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高智能体系统中的典型的强化学习Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法。该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对环境模型的重复学习,从而加速智能体的学习速度。仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于标准的Q-学习。
其他文献
秦皇岛市计有野生种子植物1093种,隶属于122科,513属。其中非中国特有种847种,占总种数的77.4%。中国特有种246种,占总种数的22.6%。本文对非中国特有成分作了区系分析,其中世界分布36种,热带分布55种,占5.2%;湿带分布510种
引信目标模拟器的主要功能是在更逼近真实作战条件下,模拟实际引信所需的目标回波信号,从而完成对引信启动特性、引战配合和抗干扰等性能指标的测试。本文主要对引信目标模拟器
中国新文化运动的激进性和法国启蒙运动的激进性密切相关。中国启蒙运动的旗手陈独秀是一个不折不扣的"法国迷",这是当时中国盛行的一种"法国崇拜"的结果,而这种"法国崇拜"其
本文以实现火炮射击诸元的数字化装定为背景,系统研究C8051F020单片机、HD7279智能控制芯片、绝对型及增量型光电编码器原理和应用,设计了利用单片机片内定时/计数器和片外逻辑
<正> 一、序言合金是把两种以上的金属在各自的熔点以上的温度进行混合,经冷却凝固而成。除金属外,合金中尚含有少量的 Si、C 等非金
LEFP是由线性成型聚能装药爆炸后,线性柱面缺型药型罩在爆轰波和爆轰产物的作用下挤压、翻转,在对称面方向上积聚形成具有一定长度的线性爆炸成型侵彻体(LinerExplosive Form
目的分析并探讨糖尿病性慢性肾功能衰竭的血液透析护理体会。方法选取2015年11月~2016年12月来我院肾内科治疗糖尿病性慢性肾功能衰竭患者118例作为研究对象,进行回顾性分析,
转炉的仪电控制集中在同一个PLC内部,PLC主要对转炉的原料、加料、氧枪、转炉转动区域的电气设备以及仪表的控制回路进行控制,同时与一次除尘系统(OG)、二级系统通讯,完成相关的数
操作简单、傻瓜式的图像传感器P5iVu视觉产品,是美国邦纳公司于2009年强势推出、极具性价比的新一代视觉图像传感器。在欧美市场上一经推出,便受到了广大合作伙伴和用户的热烈
采用水平切片淀粉凝胶电泳测定了东北地区分布的不同生态环境条件下7个豚草种群的遗传结构。统计分析了10个酶系统的12个位点,结果表明:豚草种群内存在着的遗传变异。多态位点百分率