SMDP基于性能势的M步向前策略迭代

来源 :吉林大学学报(工学版) | 被引量 : 0次 | 上传用户:wjran2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。
其他文献
电影《小孩不笨2》深入探讨了父母与子女之间因彼此缺乏沟通而产生的代沟、反映家长管教子女时所面对的困难的主题,该片渗透出来的教育理念,令人深思。因此,加强沟通,运用赏
国务院发布了《物流业发展中长期规划(2014—2020)》,物流产业必将迎来新一轮发展热潮。为聚焦仓储物流产业发展趋势,把握市场热点,凝聚共识,推动现代物流产业的健康发展;经
在《1844年经济学—哲学手稿》中,马克思从劳动对象、劳动过程、人的类本质和人与人之间的关系四个方面阐述了资本主义制度下人的异化现象。与历史上以往的思想家不同,马克思
本文采用MSC/NASTRAN分析软件对某直升机滑橇式起落架进行了弹塑性、大变形非线性分析,并与静力试验进行对比,理论计算与试验实测结果相当吻合,验证了理论分析的可靠性.
探究解冻方式(微波、高温水浴、室温空气解冻)对冻结鸡汤(-20,-40℃冻结)流变与蛋白质的影响。结果表明:冻结鸡汤解冻后汤体具有假塑性;相同剪切速率条件下,-20℃冻结鸡汤室
新媒体是以数字信息技术为基础、具有互动传播特点和创新形态的媒体。在国际交流日益密切的时代,随着媒体产品的不断更新、媒体互动方式的不断融合以及传播速度的不断加快,全球
报纸
荀子隆礼重法思想的理论基础是“性恶论”。由于“礼崩乐坏”,人性趋利,和法家功利思想的影响,荀子认为人性是趋恶的,善只是一种勉励矫正的人为的东西。荀子提出了“性恶论”
目的探究小儿咳嗽变异性哮喘的临床治疗方法与效果。方法将2013年6月~2014年2月收治的80例小儿咳嗽变异性哮喘患者随机分成观察组和对照组,每组40例患者。给予对照组患者二丙
语言是文化的载体。语言教学中不仅要教语言,还应融进文化因素。电影视听教学将语言学习与文化意识培养相结合,使语言学习过程成为巩固本民族文化意识、提高文化素养、增强文
随着政府职能转变和服务型政府建设的推进,关于政府购买公共服务的研究颇受学术界关注,其研究成果也逐渐增多,对于政府购买公共服务有效性的研究正在成为一种趋势。但是在已