POMDP中基于内部状态的多agent强化学习

来源 :中国仪器仪表学会第九届青年学术会议 | 被引量 : 0次 | 上传用户:longsir8481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于部分可观察Markov决策过程(POMDP)的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼近最优策略的近似求解方法中策略描述的复杂性随着问题规模的增大成指数增加。本文利用agent的内部状态(InternalState)来记忆agent的历史经验值,提出一种基于内部状态POMDP的多agent强化学习模型,该模型可简化策略的描述和提高学习效率。在两个实例上的实验结果表明利用此模型建模求解问题,学习效率和时间空间开销都有改进。
其他文献
目的:观察M3受体对大鼠缺血性心肌细胞凋亡的作用及其机制.方法:结扎大鼠左冠状动脉前降支建立急性心肌缺血模型,给予M3受体激动剂胆碱或阻断剂4DAMP进行干预,观察M3受体对其的影响.结果:缺血前15miniv胆碱10mg·kg-1可提高血清超氧化物歧化酶(SOD)活力,降低丙二醛(MDA)含量,减少凋亡细胞的数量(P<0.01),并可增加Bcl-2表达,减少Fas表达.预先5miniv4DAMP
目的:分别建立适合硝苯地平及阿替洛尔血药浓度测定的HPLC,为药代动力学和生物利用度研究提供方法学依据.方法:色谱柱均为C18(5μm,250×4.6nm).硝苯地平的流动相为甲醇-水(65:35,以磷酸调节pH=3.0),波长为237nm;阿替洛尔的流动相为磷酸二氢钾缓冲液(0.05M,pH3.2)-乙腈-甲醇(92:6:2),测定采用荧光光谱法,λex为277nm,λem为304nm.结果:硝
目的:研究盐酸克林霉素注射液和维生素C葡萄糖注射液配伍后的稳定性.方法:配伍液不同条件下放置6hr,观察外观变化,测定配伍液pH值,HPLC法测定盐酸克林霉素含量.结果:配伍后配伍液的外观和pH值变化不明显,配伍液中盐酸克林霉素含量稳定.结论:二药6hr内配伍可行.
目的:测定视网膜胶囊中人参皂苷Rg1和人参皂苷Re的含量.方法:采用高效液相色谱法测定,Symmetry-C18(3.9×150mm,5um)色谱柱,流动相为乙腈-0.05%磷酸溶液(95:405),检测波长为203nm.结果:人参皂苷Rg1线性范围为1.032ug~9.288ug(γ=0.9998,n=5),平均回收率为99.76%,RSD=2.10%(n=5)人参皂苷Re线性范围为0.85~7
目的:运用三维荧光光谱分析新技术能提供丰富的光谱信息的特点,研究了蛇床子素在不同皮层的分布趋势.方法:将经蛇床子素贴剂渗透后的皮肤进行水平恒冷切片,将切片平铺在石英玻璃上用三维荧光光谱仪测定其荧光强度.结果:以发射波长为x轴,激发波长为y轴,荧光强度为z轴,构成了三维荧光光谱图,从角质层开始皮肤切片的荧光强度依次减弱.结论:利用三维荧光光谱和指纹图谱可有效地检定出皮肤中分布的蛇床子素,并可以初步判
The brain-based MRI lie detection experiment methodology is reviewed for the first time, including the magnetic resonance imaging paradigm,the double-block deign,the equidistance hit-ball and the test
局域波法从信号瞬时频率的角度出发,将非平稳时变信号分解成为有限个局域波分量,每一个分量描述了时变信号中不同频率和尺度范围的固有振动模式。在进行局域波分解的过程中,由于信号边界的不确定性,边界处均值需近似估计。精确估计边界值是局域波法的关键问题。本文提出一种基于Chebyshev数值逼近的边界处理方法,通过仿真试验,证明该方法具有模型简单、所需的观测样本容量小、易于在线计算及预测精度较高的特点,实现
考虑输入受限机器臂的全局调节问题,基于能量整形及阻尼注入方法,结合近年来出现的非线性动态脉冲系统稳定性及扩展的LaSalle不变集原理的有关结果,给出了一种形式简单、约束条件少、具有清晰的能量控制概念,易于工程实现的动态混杂全局调节器。从能量控制角度与经典的"重力补偿+饱和阻尼注入"控制方案进行比较,定性说明本控制方案的简单、有效性。以直接驱动机器手臂为仿真对象,仿真结果表明本文所给的控制方案具有
为实现MWCNT操作运动过程的视觉显示,本文建立了MWCNT的动力学模型,据此可推导出推动MWCNT所需施加力的大小,并根据探针的实际受力判断其能否运动;同时还建立了MWCNT的运动学模型,根据探针的实际位置可获得探针操作下MWCNT的新位置与姿态,并借助虚拟现实技术对视觉界面进行实时更新,实现了MWCNT运动过程的实时视觉显示。基于上述视觉显示,操作者可在线控制探针的作用位置与运动轨迹、以及施加
无畸变结构光投影仪具有无畸变、标定精度高、简单小巧等特点,能够广泛应用于标定和不标定主动机器视觉中。文中重点研究投影系统内外参数标定方法,提出一种高精度的内外参数直接标定方法,并通过实验验证了所提方法的正确性和可行性。