基于参数探索的期望最大化策略搜索

来源 :自动化学报 | 被引量 : 0次 | 上传用户：fairstone

【摘要】

：

针对随机探索易于导致梯度估计方差过大的问题，提出一种基于参数探索的期望最大化（Expectationmaximization，EM）策略搜索方法．首先，将策略定义为控制器参数的一个概率分布．然后，根据

【作者】

：

程玉虎冯涣婷王雪松

【机构】

：

中国矿业大学信息与电气工程学院

【出处】

：

自动化学报

【发表日期】

：

2012年1期

【关键词】

：

策略搜索强化学习参数空间探索期望最大化重要采样 Policy search reinforcement learning parameter sp

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对随机探索易于导致梯度估计方差过大的问题，提出一种基于参数探索的期望最大化（Expectationmaximization，EM）策略搜索方法．首先，将策略定义为控制器参数的一个概率分布．然后，根据定义的概率分布直接布控制器参数空间进行多次采样以收集样本．在每一幕样本的收集过程中，由于选择的动作均是确定的，凶此可以减小采样带米的方差，从向减小梯度估计方差．最后，基于收集到的样本，通过最大化期望回报函数的下界米迭代地更新策略参数．为减少采样耗时和降低采样成奉，此处利用重要采样技术以重复使用策略更新过程中收

其他文献

融合扩展信息瓶颈理论的话题关联检测方法研究

话题关联检测的关键任务在于判断给定报道对是否属于同一话题．现有判断方法往往忽略种子事件与其直接相关事件之间的层次关系．为此，通过分析报道内部语义分布规律及篇章结构，并依

期刊

关联检测逻辑语义单元信息瓶颈单元特征Link detection logical semantic unit information bottlen

基于串联结构的分布式模型预测控制

分布式模型预测控制（Distributed model predictive control,DMPC）是一类用十多输入多输出的人规模系统的控制方式.每个智能体通过相互协作完成整个系统的摔制.已有的分布式预

期刊

分布式模型预测控制集中式模型预测控制串联过程迭代算法通信负担Distributed model predictive control（DMPC） c

努力改善金融资产管理的法制环境

金融资产管理需要在一定的法制环境下进行。健康的法制观念、严格的法律规范和必要的政策支持，构成了金融资产管理与运营的重要保证。在我国市场经济和法制建设中，目前已经建立

期刊

金融资产管理法制环境资产证券化不良资产行政干预会计准则税收制度信用中国

加快农村金融发展的建议

期刊

农村金融金融体制农村经济金融风险社会信用环境

“欲想长生肠中清”(保健谚语新解)

古语说:民以食为天。讲饮讲食乃芸芸众生的头等大事。而且,人们能吃饱喝足还愿望能延年益寿。君不见时下电视荧屏、电台报刊的广告中,有大量标榜能长寿延年并冠以“精”类的

期刊

电视荧屏中清酸性食物膳食平衡致癌物质咀嚼力纤维索结肠癌代谢病酸性化

农村信用社信息调研工作亟待加强

期刊

农村信用社信息调研工作金融管理体制农村金融

度量信息系统的属性约简

为了发掘属性值之间的内部联系,结合度量空间,引入度量信息系统,并讨论其属性约简。基于属性值之间的距离不大于系统误差,得出一种二元关系,由此定义任意集合的上、下近似;采

期刊

度量空间信息系统属性约简属性特征metric spaceinformation systemattribute reductionattribut

数模转换器结构设计综述

对基本结构类型的数/模转换器结构进行讨论。在高速、高精度两个主要方向上,详尽地分析了当前主流数/模转换器结构的工作原理和应用,总结并比较各种结构的优缺点。在此基础上

期刊

数/模转换器高速数/模转换器高精度数/模转换器digital-to-analog converter(DAC)high-speed DAChigh-r

金融生态环境建设中存在的问题及建议

目前在一些地方，金融生态环境建设中存在着三个不对称，影响着金融生态环境建设的深入进行，需引起高度重视。

期刊

生态环境建设金融不对称

国库会计集中核算的可行性研究

为了适应中央银行会计改革与发展的需要，提高会计核算质量，防范会计风险，人民银行将全面推行会计核算管理“四集中”，这无疑将改进现行的会计核算体系，建立以适应中央银行会计改革

期刊

中央银行行会“四集中”集中核算国库会计会计业务会计改革适应推行会计核算体系

基于参数探索的期望最大化策略搜索

与本文相关的学术论文