基于一致性与事件驱动的强化学习研究

来源 :西南交通大学 | 被引量 : 6次 | 上传用户:Alexandratj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法,通过试错的方式来求解问题,具有学习结构简单,自适应性强等特点,在机器博弈、机器人自主导航和市场决策等领域显示出很大的发展潜力,为解决智能系统知识获取的瓶颈问题提供了一个可行之法。论文围绕如何提高强化学习的效率这一科学问题,从强化学习过程中智能体间的通信方式、强化学习的算法结构和强化学习的策略搜索方式三个方面着手进行研究,建立了分布式局部可观测马尔科夫过程、多智能体强化学习和局部通信之间的理论纽带,为发展基于事件驱动思想的强化学习理论打下了基础。针对大规模多智能体应用中的观测局部性和不确定性问题,围绕分布式局部可观测马尔科夫模型,提出一种基于一致性协议的多智能体强化学习算法。对于一个分布式学习环境,强化学习的要素在局部观测情况下往往难以进行有效描述,且每一个独立智能体的学习行为都受其队友的影响。所提算法利用一致性协议使所有智能体对观测环境达成共识,剔除了重复观测生成的部分策略;针对智能体感知能力有限并随空间变化的特性,引入观测可信度来评估智能体对当前观测的可靠程度。仿真实验表明,观测可信度可以提高团队对观测目标的共识程度,基于一致性协议的学习算法减小了多智能体的策略空间,加快了学习速度。针对多智能体强化学习过程中通信与计算资源消耗大的问题,提出一种基于事件驱动的多智能体强化学习算法。传统的强化学习算法需要周期性的通信和策略搜索,造成了部分不必要的通信和计算资源消耗。所提算法根据智能体观测信息的变化率定义触发函数,使通信和策略搜索间歇性地进行,整体学习过程由周期性转变为非周期性。仿真实验表明,事件驱动的方式可以减少通信和策略遍历次数,降低了通信和计算资源消耗。对一些收敛速度要求不高的学习问题,以收敛速度为代价来减少通信和计算资源的消耗是可取的思路。针对如何平衡启发式强化学习中策略搜索范围与学习速度的关系问题,提出一类基于事件驱动的启发式强化学习算法。首先,针对启发式学习中先验知识获取程度不明确问题,设计了基于事件驱动的先验知识获取判断机制。对于启发式学习过程,从自身的经历获取先验知识是启发式函数的一种设计方法,先验知识的优劣往往决定了搜索的速度与解的好坏。所提算法利用智能体学习步数和Q值表F范数的变化率两种方式设计触发函数,使先验知识的获取过程由固定方式转变为灵活方式;其次,针对启发式学习以约束策略搜索范围为代价提高学习速度的问题,提出了一种基于事件驱动的启发式强化学习算法。根据智能体观测信息的变化情况设计触发函数,使智能体选择性地对学习过程进行启发,在保证一定学习速度的情况下扩大了策略搜索范围。仿真实验表明,智能体可以更有效地从自身经历中获取先验知识,且更好地平衡启发式学习中最优策略与收敛速度的关系。
其他文献
股骨髁上,髁间骨折的治疗十分困难,疗效常不理想,为此,作者设计了双加压L形钢板,该钢板是普通L形钢板基础上必进而来,其短臂上有一导引孔和加压螺栓。该钢板安放位置准确,可有效地避免
为探讨马鞭草抗早孕的细胞学作用机理,以正常妊娠6 ̄8周早孕绒毛组织体外培养为实验手段,观察了马鞭草提取液对绒毛滋养层细胞光镜、电镜、免疫组织化学等形态变化化学及对绒毛膜促
脑创伤后的蛛网膜下隙出血,颅脑电子计算机断层扫描(CT)检查能发现脑沟、脑池或脑室内高密度的出血影,腰穿检查能发现血性脑脊液.收集1998~1999年本科收治的外伤性颅脑损伤,并
为了解微囊包膜技术应用于垂体移植,本文采用海藻酸钠包裹混合的胎垂体下丘脑黑质细胞,通过测定微囊细胞培养矿中生长激素(GH)与泌乳素(PRL)分泌水平,促甲状腺释放激素(TRH)刺激PRL分泌试验及用微
应用彩色多普勒血流显象(CDFI),检测40例非胰岛素依赖型糖尿病(NIDDM)患者的眼动脉(OA)血流动力学参数。结果表明:NIDDM患者OA血流呈低流速、低流量、高阻力型;血流动力学参数中,血管阻力指数(RI)增高,而舒张末期
急性戊型病毒性肝炎多见于青、壮年 ,但是 ,近年来老年人戊型肝炎的发病有增加趋势 ,为了解其临床特点和探讨合理的治疗 ,现将我科收治的病例进行总结 ,报道如下。1 资料和
目的 提高各种原因所致肩关节制动的治疗疗效。方法 随机将病例分为复合治疗组31例,治疗组37例。应用地塞米松10mg、2%得多卡因5ml、氯化钠5ml对复合治疗组肩关节腔注射,其中8例患者作以肩关节
对127例下肢静脉倒流性疾病184条病肢进行临床诊断分析。其中103例141条病肢行下肢深静脉造影,100例149条病肢行光电容积描记检测,22条病肢行下肢动态静脉压测定。结果显示,本病绝大多数为原发性深静
目的分析支气管哮喘患儿血清及痰液气道重塑因子、促炎因子水平变化及其临床意义。方法选取2016年9月—2017年10月上海市奉贤区奉城医院收治的支气管哮喘患儿86例作为观察组,