样本高效的强化学习方法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:ninetails
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是现代人工智能的重要方向之一,其丰富的应用场景使该研究方向具有重要的现实意义。强化学习通过与环境交互的方式为智能体学习行动策略。在与环境多次交互并进行学习的过程中,强化学习研究主要面临着以下两大挑战:(1)如何高效探索,即如何以尽量少的交互来获取尽量多的有效信息,从而求解最优策略;(2)如何估计延迟收益,即如何评估当前动作对后续交互过程的影响,将后续获得的延迟收益正确地分配给当前动作。与此同时,具体决策场景中的各种不确定因素,如未知的环境参数、其他玩家的影响等,使得这些挑战更加难以解决。本文提出了样本高效的强化学习算法,以求解不确定性条件下的最优策略。本文主要创新点如下:1.针对收益的不确定性下的高效探索问题,考虑上下文赌博机模型,提出了一种贝叶斯框架下的最优子集定位算法。该算法利用上下文信息的关联性,提升了探索效率,实现了样本高效性。2.针对如何高效探索环境转移概率具有未知参数和未知扰动的决策问题,具体考虑了鲁棒马尔科夫决策过程模型,并给出了对应的鲁棒策略求解算法。在环境扰动具有一定的光滑性时,在理论上给出了该算法可以以多项式阶数的样本求解近似最优的鲁棒策略的证明。3.针对如何高效探索多智能体任务的问题,考虑有限回合随机博弈模型,提出了一个样本高效的纳什均衡求解算法,在面对其他玩家带来的不确定性时保证了算法的稳定性。4.针对多智能体问题中受到其他玩家的不确定性影响的收益延迟问题,考虑信息完全的两人零和扩展型博弈模型,提出了一种利用强对手的策略进行学习的算法。该算法利用对手策略提高自身策略学习的样本高效性,并同时保证在对手策略的不确定性下的鲁棒性。
其他文献
随着科技的发展和人工智能技术的不断进步,可拉伸和可弯折的柔性可穿戴电子器件引起了人们极大的关注。可穿戴传感器和超级电容器作为两种研究比较广泛的电子器件也逐渐朝着柔性化的方向迈进,以顺应集成器件的形变,满足实际应用需求。近年来,水凝胶由于具有柔韧性高、可拉伸、导电性能可调等优势在柔性可穿戴传感器以及超级电容器等领域被广泛应用。尽管目前水凝胶电子器件已经取得了长足的发展,但是大多数水凝胶仍然存在机械性
建筑师力图表达的设计理念与使用建筑的人所获得的真实感受之间一直存在着一种矛盾冲突。经常会发生这样一个现象,一座公认为优秀的建筑,其真实的使用效果却不尽人意,或者只满足了基本的使用需求,但无法满足使用者向往积极乐观的心理需求。因此,不禁引人深思是设计上出了问题还是使用出了问题?上世纪80年代,这个问题开始引起西方建筑师、环境行为学家、环境心理学家们的关注。使用后评估便是一个以此为背景应运而生的新兴学
单细胞的时序动态行为分析对于理解生命体系自组织的功能调控与功能实现具有重要意义。一方面,细胞的异质性及细胞-细胞相互作用的存在使得对生命过程的深入研究必须在单细胞层面上展开;另一方面单细胞在生命过程中的状态转换必须通过时序分析进行检测、追踪和研究。显微成像分析因其高通量,高时空分辨率和对样品的非破坏性等特点,成为原位检测单细胞时序动态过程的重要分析手段。但与此同时,细胞间个体差异、时间和空间这三个
宏表情识别经过多年的研究已经取得了杰出的成绩,而在现实的生活中,由于人类对于自然流露的表情有隐藏其的趋向,此时情感表现往往会从宏表情收缩为微表情。微表情是面部肌肉的简短、快速、自发的姿态变化,表达个人的真实情绪,在国防安全、案件刑侦、心理病理、社会交际等各个领域具有重要的实际意义。早期的微表情识别系统一般基于手工制作的传统特征制作,近年来,深度学习在计算机视觉领域大放异彩。由于微表情持续时间短、变
改革开放以来,我国经济飞速发展,人民生活水平日益提高,人口结构也发生了变化,出生人口不断减少,老年人口不断增加,我国已逐渐步入老龄化社会,这将导致人们的医疗需求明显增多,医疗行业的规模也快速增长。并且,随着生活水平的提高,人们越来越重视健康,相比于疾病的“治疗”,更注重疾病的“预防”,基因检测作为检查疾病的重要手段之一,愈发受到关注。尤其是2020年新冠疫情爆发后,世界各国越来越重视基因技术和精准
作为连接物理世界与信息空间的桥梁,物联网感知技术一直是领域内的研究热点。其大致可以分为传统的传感器感知与新兴的非传感器感知(Sensorless Sensing)两类。相较于前者,后者采用更加普适与泛在的无线信号(如声学、射频与光学信号等)对纷繁复杂的物理世界进行描摹刻画。本论文所研究的基于射频(Radio Frequency,RF)信号的无线感知(Wireless Sensing),便是指捕捉被
水泵水轮机作为抽水蓄能电站功能转换的核心,复杂多变的运行条件使得机组的水力特性和结构强度面临极大的考验。其中,转轮、轴系和上机架等关键部件在非稳定水力激励力作用下的振动和噪音问题尤为突出。本文采用数值模拟技术,开展了暂态过程水泵水轮机流固耦合动力特性研究。首先,提出了基于声固耦合的空化状态下对结构响应及模态分析识别的方法,与实验结果及传统的模态分析法进行对比,验证该方法在空化状态下结构模态计算的适
随着网络技术的发展,视频流媒体作为主要的互联网应用之一,其网络流量占比仍在逐年增加。同时,各种以视频为核心的服务得到广泛应用,例如点播视频、直播视频、短视频和视频会议。在视频流传输中,高质量的用户体验可以显著提高用户粘性,因此保障高质量用户体验的需求越来越受到关注。为了保障视频传输的用户体验质量,现有工作基于自适应视频流提出了自适应码率传输算法,即根据网络条件动态地选择合适码率的视频块,以最大化目
<正>量感是小学阶段数学核心素养的主要表现之一,主要是指对度量意义的理解,对事物的可测量属性以及大小关系的直观感知,能在真实情境中对度量单位进行合理选择,对测量结果作出估计等。量感的形成有助于增强学生的应用意识和抽象能力。小学阶段学生量感的形成主要依托“图形的认识与测量”的教学,要着重让学生在量与量的体悟中实现量感的自然生长。下面以苏教版二年级下册“分米和毫米的认识”教学为例谈几点思考。
期刊
点燃-压燃模式与窄工况运行的混合动力专用汽油机相结合能实现超高压缩比下无爆震燃烧,同时汽油添加乙醇能进一步提高火焰速度,增强燃料的中高温活性,优化点燃-压燃模式的燃烧相位,符合能源低碳化趋势。本文基于可视化快速压缩机、热力学发动机与数值模拟研究了含乙醇燃料的自燃与火焰传播特性,研发了专用燃烧系统并进行油机协同优化,在中高负荷实现了点燃-压燃模式的高效节能。将燃料辛烷值和敏感度解耦,在快速压缩机中研