基于值函数优化的强化学习研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:rongxiaokun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,强化学习已成为人工智能领域的研究热点之一。基于值的强化学习是强化学习中一个重要分支,其通过缩小当前值函数与时序差分目标的差异求解最优值函数,并根据求解得到的最优值函数确定最优策略。因此,优化值函数可提升智能体学习效率和策略性能。本文主要围绕基于值函数优化的强化学习展开研究,主要内容如下:(1)针对强化学习中的奖励机制设计问题展开研究,提出基于平均累积奖励机制的近端策略优化。首先,将平均奖励引入值函数的设计并给出基于平均累积奖励机制的策略目标函数;然后,理论证明最大化平均累积奖励机制的策略目标函数可得一个策略性能单调上升的策略序列,并由此提出基于平均累积奖励机制的近似策略迭代算法;最后,将平均累积奖励机制引入到近端策略优化算法中,提出基于平均累积奖励机制的近端策略优化算法。(2)针对异策略执行家-评论家强化学习算法在训练过程中易于出现值函数估计偏差和策略学习过程不稳定的问题,提出一种基于组合Q网络的确定性策略梯度。一方面,针对值函数估计偏差问题,通过构造一种组合Q网络机制来对多个Q网络的输出进行自适应加权组合,从而得到更为准确的TD目标。在值函数估计过程中,权值能够根据Q值估计与折扣回报间的偏差进行自适应调整。另一方面,通过约束新旧策略之间的L2范数来增强策略学习过程的稳定性。本文在MuJoCo平台上评估了所提算法的有效性。实验结果表明:本文所提算法均能有效提升智能体的学习性能。本文含有图11幅,表14个,参考文献91篇。
其他文献
党的十八大以来,始终坚持“和平统一、一国两制”的基本方针,不断深化两岸经济文化交流融合,推动两岸关系和平发展,推进祖国和平统一进程。习近平总书记新时代对台工作重要论述指出,“要逐步为台湾同胞在大陆学习、创业、就业、生活提供与大陆同胞同等的待遇,增进台湾同胞福祉”,要率先与台湾同胞分享大陆发展的机遇。国台办“惠台31条”政策的出台充分考虑和回应了台湾同胞的需求和关切,充分体现了对台湾同胞利益福祉的关
学位
巷道掘进是煤矿生产的重要环节,在巷道掘进过程中,若工作面迎头前方含有事先未能探明的隐伏地质异常体,可能会造成严重的安全事故。因此,运用地震勘探的方法准确探测出迎头前方的隐伏地质构造尤其重要。而槽波超前探是一种有效的工作面构造探测技术,其利用在煤层中传播的槽波对巷道前方断层进行超前探测,是目前研究的热点。如何处理分析巷道超前探测采集到的槽波数据及对构造进行成像,是槽波超前探所面临的挑战。本文就煤层巷
学位
“双碳”战略提倡低碳、环保的生活方式,交通行业是碳排放大户,发展新能源汽车是助力“双碳”战略的有效措施之一。动力电池系统是新能源汽车的核心部件之一,其热安全和热衰减问题制约了新能源汽车的发展,开发轻量、紧凑、高效的电池热管理系统对于新能源汽车的发展至关重要。本文设计了用于动力电池热管理的折流式冷板,首先通过实验和数值模拟结合的方法研究不同结构参数冷板的流动传热特性,并提出了局部连通方法对冷板的流动
学位
本文选择交际翻译理论作为翻译指导理论。交际翻译理论试图使目的语读者阅读译文所产生的效果尽可能接近源语读者产生的效果,保证译文能够准确传递原文信息,使译文不论是在内容上还是在语言形式上都能为读者所接受。原文文本属于信息型文本,具有信息型文本的典型特征。笔者根据词汇、句子和篇章三个不同层面,在交际翻译理论的指导下结合具体例证对译文进行分析。在词汇层面,原文文本不仅包含专业术语的翻译,也有半专业术语的翻
学位
近年来,经济社会的飞速发展使得生产建设项目的数量不断攀升,但与此同时水土保持意识的缺乏及水土保持监管力量的薄弱,导致未批先建现象屡见不鲜,植被地貌被肆意破坏,水土流失现象越来越严重的,环境问题日渐严酷,极大地妨害了生态、经济的可持续进步。伴随着绿色生态建设的深化,人民对美好自然环境的需求与水保监管力有未逮的冲突日益显现,水保监管“宽松软”的矛盾与日突显,进一步推进水土保持监督管理工作已成为当前的一
学位
自工业革命以来,人类经济活动发展对化石能源需求的日益增加导致CO2等温室气体的排放量急剧增加,对人类社会的生存与发展造成严重的威胁。江苏省作为我国经济较为发达省份,其工业碳排放量要远远大于全国平均水平。在此背景下,本文以江苏省工业碳排放为研究对象,首先,运用碳排放系数法核算江苏省工业碳排放量,并对其碳排放特征进行研究分析;其次,运用三阶段EBM-DEA效率评价模型研究了江苏省工业碳排放效率,并分析
学位
随着我国城市化进程的快速推进,出现了越来越多的人群密集场所,这些场所中人群密度较大,特别是在一些节假日期间人群拥堵现象更为严重。拥挤的人群在运动过程中一旦受到突发事件的影响,行人流将会逐渐混乱,进而导致踩踏事故的发生。因此研究和分析密集场所人群的运动现象和安全隐患对人群的影响十分重要。首先通过分析几起典型的人群踩踏事故,从中提炼出导致人群混乱的两种影响因素,分别是因障碍物产生的通道阻塞率和人群密度
学位
地铁是城市综合交通体系的骨干组成部分,随着地铁运营里程和线网规模的增加,网络化运营的地铁面临着各类事故的威胁,地铁网络化运营的安全问题逐渐引起人们的关注。随着韧性理念的提出和实践,城市各功能主体协调运营下抵抗和应对风险的能力不断被强调,为城市地铁网络运营安全管理提供了新的思路。因此,城市地铁网络的韧性状况值得重点关注。本研究从韧性的研究视角出发,分析了城市地铁网络韧性的形成机理,从车站和网络两个层
学位
光子晶体光纤(Photonic Crystal Fiber,PCF)的多孔结构及众多优良特性,结合功能材料填充,在气体传感领域有着独特的优势。目前用于PCF传感分析的损耗谱分析方法只能提供一个自由度,难以实现多参量的同时检测。而在四波混频过程中,斯托克斯峰移和反斯托克斯峰移可以提供两个独立的传感通道,实现双参数传感。并且四波混频(Four-wave mixing,FWM)效应对光纤色散非常敏感,可
学位
当前受中美关系紧张以及新冠疫情的影响,全球经济环境愈加不稳定。C公司作为一家美国全资企业,受此大环境的影响尤为明显。同时其作为全球重型机械的龙头企业,也面临着中国本土诸多重工企业的冲击,市场份额不断减少。为了保证公司利益,降低运营成本成了必要的选择。作为生产型企业,生产成本是运营成本中占比最大的部分,所以如何降低生产成本是重工企业研究的重点。本文以精益理论作为基础,通过工业工程方法和PDCA管理方
学位