基于参数探索的期望最大化策略搜索

来源 :自动化学报 | 被引量 : 0次 | 上传用户:fairstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对随机探索易于导致梯度估计方差过大的问题,提出一种基于参数探索的期望最大化(Expectationmaximization,EM)策略搜索方法.首先,将策略定义为控制器参数的一个概率分布.然后,根据定义的概率分布直接布控制器参数空间进行多次采样以收集样本.在每一幕样本的收集过程中,由于选择的动作均是确定的,凶此可以减小采样带米的方差,从向减小梯度估计方差.最后,基于收集到的样本,通过最大化期望回报函数的下界米迭代地更新策略参数.为减少采样耗时和降低采样成奉,此处利用重要采样技术以重复使用策略更新过程中收
其他文献
话题关联检测的关键任务在于判断给定报道对是否属于同一话题.现有判断方法往往忽略种子事件与其直接相关事件之间的层次关系.为此,通过分析报道内部语义分布规律及篇章结构,并依
分布式模型预测控制(Distributed model predictive control,DMPC)是一类用十多输入多输出的人规模系统的控制方式.每个智能体通过相互协作完成整个系统的摔制.已有的分布式预
金融资产管理需要在一定的法制环境下进行。健康的法制观念、严格的法律规范和必要的政策支持,构成了金融资产管理与运营的重要保证。在我国市场经济和法制建设中,目前已经建立
古语说:民以食为天。讲饮 讲食乃芸芸众生的头等大事。而且,人们能吃饱喝足还愿望能延年益寿。君不见时下电视荧屏、电台报刊的广告中,有大量标榜能长寿延年并冠以“精”类的
为了发掘属性值之间的内部联系,结合度量空间,引入度量信息系统,并讨论其属性约简。基于属性值之间的距离不大于系统误差,得出一种二元关系,由此定义任意集合的上、下近似;采
对基本结构类型的数/模转换器结构进行讨论。在高速、高精度两个主要方向上,详尽地分析了当前主流数/模转换器结构的工作原理和应用,总结并比较各种结构的优缺点。在此基础上
目前在一些地方,金融生态环境建设中存在着三个不对称,影响着金融生态环境建设的深入进行,需引起高度重视。
为了适应中央银行会计改革与发展的需要,提高会计核算质量,防范会计风险,人民银行将全面推行会计核算管理“四集中”,这无疑将改进现行的会计核算体系,建立以适应中央银行会计改革