Policy Gradient 算法的研究与实现

来源 :现代计算机 | 被引量 : 0次 | 上传用户：neverer123

【摘要】

：

近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Polic

【作者】

：

刘俊利

【机构】

：

西南科技大学计算机科学与技术学院

【出处】

：

现代计算机

【发表日期】

：

2019年30期

【关键词】

：

TensorFlow 机器学习强化学习 Policy-Based方法 POLICY Gradient算法 TensorFlow Machine Learnin

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术,是强化学习的经典算法之一。以policy-based方法开始,然后介绍Policy Gradient算法的具体内容,最终利用深度学习框架TensorFlow完成该算法的实现。

其他文献

切开复位内固定治疗Lisfranc关节损伤25例

目的总结切开复位内固定治疗Lisfranc关节损伤的临床经验。方法收治Lisfranc关节损伤25例计27侧,全部采用切开复位内固定治疗。患者平均年龄29.6岁,损伤按Quenu-Kuss分型,A型

期刊

足损伤骨折固定术内

低浓度一氧化碳作业对工人血脂和血糖代谢的影响

目的探讨长期低浓度一氧化碳作业对工人血脂血糖水平的影响。方法以435例低浓度一氧化碳环境作业人员为接触组及381例非接触人员为对照组，分别检测其血脂和空腹血糖水平。结果

期刊

一氧化碳中毒职业暴露血糖高脂血症Carbon monoxide poisoning Occupational exposure Blood gluco

一类Fu22y映象列的公共不动点定理

<正> 度量空间中Fu22y映象的不动点的存在性问题,有许多作者进行了研究(ct.[1—8])。本文讨论完备的距离凸的度量空间中非空闭集上广义Fu22y映象列的公共不动点的存在性。

期刊

公共不动点定理Fu22y度量空间不动点存在性问题闭子集正整数特征函数充分必要条件实值函数

人工势场法路径规划的差分进化参数优化研究

传统的人工势场法的参数值通常凭经验设置,参数设置不当则会导致规划的路径不平滑、计算效率低以及目标点不可到达等问题。针对以上问题,以路径最短为目标,使用差分进化算法

期刊

路径规划人工势场法差分进化算法Path PlanningArtificial Potential Field MethodDifferential E

隐藏节点冲突的发现与研究

隐藏节点在无线传感网络中的冲突问题,会导致无线传感网络中节点进行数据传输的整体性能的过多损耗,在具体的协议标准中并没有给出实际的解决方案。使用一种分组算法有策略性

期刊

隐藏节点问题LR-WPAN布隆过滤器无线传感网络ZIGBEE协议Hidden Node ProblemLR-WPANBloom FilterWi

基于多核PC的事务内存冲突管理算法的改进

多核处理机的不断普及,为应用多处理器、充分发挥多核机的潜能,并行解决各领域的实际问题提供更好的解决方案。但是,目前多线程并行程序设计主要通过锁或信号量来实现数据共

期刊

多核PC事务内存重复Hash探测冲突规避冲突管理Multi-Core PCTransaction MemoryRepeated Hash Dete

利妥昔单抗注射液治疗非霍奇金淋巴瘤的观察及护理

利妥昔单抗注射液是属于蛋白制品生物制剂，可发生过敏反应，因此，输注利妥昔单抗注射液过程中观察及护理是极其重要的。

期刊

利妥昔单抗非霍奇金淋巴瘤注射液护理治疗生物制剂蛋白制品过敏反应

产业报特色的共性需求

期刊

产业报产业特色共性需求特色新闻市场调研采编队伍建设

直接冠状动脉介入治疗对急性下壁心肌梗死患者的预后

急性下壁心肌梗死是临床上常见的心血管急症，右冠状动脉（RCA）或左回旋支动脉（LCX）闭塞均可表现为急性下壁心肌梗死，但不同梗死相关动脉（IRA）患者的心功能和预后是不同的。我们通过对

期刊

直接冠状动脉介入治疗急性下壁心肌梗死心肌梗死患者预后梗死相关动脉梗死相关血管临床特点心血管急症

双水平气道正压通气治疗急性左心衰的临床研究

目的评价双水平气道正压通气（BiPAP）无创机械通气对急性左心衰患者的临床疗效。方法将64例急性左心衰患者随机分为两组（BiPAP组和对照组），BiPAP组在常规治疗的基础上，给予BiPAP呼吸

期刊

心力衰竭充血性连续气道正压通气面罩Heart failure congestive Continuous positive airway press

Policy Gradient 算法的研究与实现

与本文相关的学术论文