一类基于有效跟踪的广义平均奖赏激励学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:zlmgwj006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,时传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并时算法的性能进行了初步的比较实验。
其他文献
目的:观察应用激光治疗太田痣的治疗反应和治疗效果。方法:采用多波长医学激光仪治疗太田痣148例,根据年龄、皮肤颜色选择不同的技术参数进行治疗,间隔3~6月治疗一次。结果:148
广西壮族自治区建设厅近日出台指导性意见,提出在推进危旧房改造的过程中,在保证改造项目所在区域各项规划指标总体平衡的前提下,鼓励向空中发展。
谁能料到,曾经是“得渠道者得天下”的手机市场又一次经历着巨大的嬗变。
《土地管理法》和《城市房屋拆迁管理条例》的修改已进入关键阶段,如何完善征收补偿制度依然是社会各界没有达成基本共识的重大问题。农村集体土地和城市国有土地上房屋的征
文章分析了砖混结构墙体产生裂缝的原因,提出了墙体裂缝的处理原则以及避免墙体产生裂缝的防治措施和加固补强措施。
请求负栽的增加常常导致Web服务器系统性能降低,用户期望的服务质量得不到保证,这是服务级Web系统所面临和必须解决的问题。文章提出了一种Web服务器集群环境下的负载分配策略,
IP电话网关适配器是IP GW和PBX结合的产品,跨接在IP网和电路交换网之间。它作为协议格式转换器和数据格式转换器,是IP电话网中比较复杂的部件。SNMP Agent在IP电话网关适配器中
担子同一种新的RAID结构扩展方法,其扩展速度大大优于平凡方法,通过仿真实验表明,与标准RAID结构相比,新的扩展方法产生的布局结构只在其些特定的访问模式下性能稍差,而对于常见的
自治区“城乡清洁工程”领导小组副组长、建设厅厅长宋继东近日在南宁市督查“五乱”治理情况时强调,继续加大督察指导力度,充分发动干部群众。再掀“城乡清洁工程”新高潮,以“
分布式多媒体系统是一个复杂的动态系统,传统的面向对象分析方法存在不适应地方,基于Agent的计算以其良好的自适应性,结构的动态优化和智能化的信息处理而广泛应用于分布式计算