一种PEGASUS策略梯度算法的理论及应用

来源 :中国仪器仪表学会第九届青年学术会议 | 被引量 : 0次 | 上传用户:castor025castor025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管策略梯度增强学习算法克服了值函数增强学习算法不能保证收敛的缺点,但是在梯度估计过程中,方差过大,影响了学习性能。PEGASUS策略梯度增强学习算法通过把随机性问题转化为确定性问题,收敛速度较其他策略梯度方法都有很大的提高。本文提出了一种基于PEGASUS策略梯度估计的计算方法,并将该方法用于无人直升机的姿态控制中。实验结果表明,该算法能够提高收敛速度,提高学习效率,并很好的控制了无人直升机的悬停姿态。
其他文献
本文引入一种基于单片机和FPGA的任意波形发生系统,该系统中采用直接数字频率合成(DDS)技术,可以产生正弦波、方波、三角波等多种波形,并可以产生它们的多次谐波和多种波形的
采用内添加法将氟化剂加入到橡胶中,在胶料配方设计合理、原材料符合质量标准以及胶料制造工艺正确的前提下,降低了制品摩擦系数和磨耗量,提高了生产效率和产品表面光洁度。阐述
据介绍,巴陵石化合成橡胶事业部2条环保型热塑橡胶SBS生产线进入试车阶段,实现一次开车成功,日前已经产出7t产品,达到预期效果。巴陵石化现有全球单套产能最大的年产20万tSBS
森林生物灾害严重制约着国民经济的发展,及时准确地对其进行预测对发展生物技术和信息技术,实现经济可持续发展的综合森林灾害管理模式具有非常重要的意义。由于影响生物灾害
会议
AD9238是美国AD公司推出的12位双通道65MSPS高速A/D转换器,本文介绍了此A/D转换器的主要结构、关键功能及其主要性能特点。讨论了以AD9238为采集芯片的数模混合电路设计的难
会议
利用不定计算的自组织、自适应原理,将交通流系统视为一个自组织系统,设计实现全分布的单层路网组织结构。通过修改DHM(数字荷尔蒙模型)模型,使其适应交通路网的实际环境,以整
会议
本文设计了一个基于Intel PXA270的硬件平台及嵌入式Linux的软件平台进行无线视频采集的系统。实现了在嵌入式LINUX中进行VFL下的视频采集以及MPEG-4编码和无线传输的功能,可
以 NBR、CR 和 BR 为基材,以镀铜钢丝(Φ0.3mm)和弹簧钢丝 T9A(Φ1.7mm)为骨架材料,研制了编织结构的高空特种输油橡胶软管。结果表明,该产品满足高空特种输油工作要求,获得了用
总结分析RTK点校正环节的常见错误,提出错误弥补方案。以实验模拟各种外业错误。通过正误数据的对比,采用假设检验方法,结合点校正的理论,分析数据错误的规律,探讨改正错误数
《石化技术与应用》是经中国科学技术部和新闻出版署批准,由中国石油兰州石化公司主管,石油化工研究院编辑出版的石油化工领域内的技术性刊物,为中国科技核心期刊、中国科技