【摘 要】
:
尽管策略梯度增强学习算法克服了值函数增强学习算法不能保证收敛的缺点,但是在梯度估计过程中,方差过大,影响了学习性能。PEGASUS策略梯度增强学习算法通过把随机性问题转化为确定性问题,收敛速度较其他策略梯度方法都有很大的提高。本文提出了一种基于PEGASUS策略梯度估计的计算方法,并将该方法用于无人直升机的姿态控制中。实验结果表明,该算法能够提高收敛速度,提高学习效率,并很好的控制了无人直升机的悬
【机 构】
:
国防科学技术大学 机电工程与自动化学院 长沙 410073;空军航空大学控制工程系 长春 130022
【出 处】
:
中国仪器仪表学会第九届青年学术会议
论文部分内容阅读
尽管策略梯度增强学习算法克服了值函数增强学习算法不能保证收敛的缺点,但是在梯度估计过程中,方差过大,影响了学习性能。PEGASUS策略梯度增强学习算法通过把随机性问题转化为确定性问题,收敛速度较其他策略梯度方法都有很大的提高。本文提出了一种基于PEGASUS策略梯度估计的计算方法,并将该方法用于无人直升机的姿态控制中。实验结果表明,该算法能够提高收敛速度,提高学习效率,并很好的控制了无人直升机的悬停姿态。
其他文献
目的:研究盐酸克林霉素注射液和维生素C葡萄糖注射液配伍后的稳定性.方法:配伍液不同条件下放置6hr,观察外观变化,测定配伍液pH值,HPLC法测定盐酸克林霉素含量.结果:配伍后配伍液的外观和pH值变化不明显,配伍液中盐酸克林霉素含量稳定.结论:二药6hr内配伍可行.
目的:测定视网膜胶囊中人参皂苷Rg1和人参皂苷Re的含量.方法:采用高效液相色谱法测定,Symmetry-C18(3.9×150mm,5um)色谱柱,流动相为乙腈-0.05%磷酸溶液(95:405),检测波长为203nm.结果:人参皂苷Rg1线性范围为1.032ug~9.288ug(γ=0.9998,n=5),平均回收率为99.76%,RSD=2.10%(n=5)人参皂苷Re线性范围为0.85~7
目的:运用三维荧光光谱分析新技术能提供丰富的光谱信息的特点,研究了蛇床子素在不同皮层的分布趋势.方法:将经蛇床子素贴剂渗透后的皮肤进行水平恒冷切片,将切片平铺在石英玻璃上用三维荧光光谱仪测定其荧光强度.结果:以发射波长为x轴,激发波长为y轴,荧光强度为z轴,构成了三维荧光光谱图,从角质层开始皮肤切片的荧光强度依次减弱.结论:利用三维荧光光谱和指纹图谱可有效地检定出皮肤中分布的蛇床子素,并可以初步判
The brain-based MRI lie detection experiment methodology is reviewed for the first time, including the magnetic resonance imaging paradigm,the double-block deign,the equidistance hit-ball and the test
局域波法从信号瞬时频率的角度出发,将非平稳时变信号分解成为有限个局域波分量,每一个分量描述了时变信号中不同频率和尺度范围的固有振动模式。在进行局域波分解的过程中,由于信号边界的不确定性,边界处均值需近似估计。精确估计边界值是局域波法的关键问题。本文提出一种基于Chebyshev数值逼近的边界处理方法,通过仿真试验,证明该方法具有模型简单、所需的观测样本容量小、易于在线计算及预测精度较高的特点,实现
考虑输入受限机器臂的全局调节问题,基于能量整形及阻尼注入方法,结合近年来出现的非线性动态脉冲系统稳定性及扩展的LaSalle不变集原理的有关结果,给出了一种形式简单、约束条件少、具有清晰的能量控制概念,易于工程实现的动态混杂全局调节器。从能量控制角度与经典的"重力补偿+饱和阻尼注入"控制方案进行比较,定性说明本控制方案的简单、有效性。以直接驱动机器手臂为仿真对象,仿真结果表明本文所给的控制方案具有
为实现MWCNT操作运动过程的视觉显示,本文建立了MWCNT的动力学模型,据此可推导出推动MWCNT所需施加力的大小,并根据探针的实际受力判断其能否运动;同时还建立了MWCNT的运动学模型,根据探针的实际位置可获得探针操作下MWCNT的新位置与姿态,并借助虚拟现实技术对视觉界面进行实时更新,实现了MWCNT运动过程的实时视觉显示。基于上述视觉显示,操作者可在线控制探针的作用位置与运动轨迹、以及施加
无畸变结构光投影仪具有无畸变、标定精度高、简单小巧等特点,能够广泛应用于标定和不标定主动机器视觉中。文中重点研究投影系统内外参数标定方法,提出一种高精度的内外参数直接标定方法,并通过实验验证了所提方法的正确性和可行性。
基于部分可观察Markov决策过程(POMDP)的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼近最优策略的近似求解方法中策略描述的复杂性随着问题规模的增大成指数增加。本文利用agent的内部状态(InternalState)来记忆agent的历史经验值,提出一种基于内部状态POMDP的多agent强化学习模型,该模型可简化策略的描述和提高学习效率。在两
不确定度概算是新一代GPS测量不确定度管理体系的核心内容。本文针对《测量不确定度评定指南》提出的不确定度评定方法的不足,利用蒙特卡罗仿真,对测量任务已经明确的测量过程,进行不确定度的概算。该方法不用区分A、B类,无需考虑不确定度分量间的相关性,程序编制简单,应用于新一代GPS测量不确定度管理,可以帮助企业决策或设计合理的测量过程。最后通过实例说明了该方法的合理性和有效性。