强化学习样本复杂度与梯度流建模理论研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:likelikeme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习领域一种非常成功的学习范式,如今在实际应用中体现出来巨大的价值,如棋类与游戏博弈、机器人控制、自动驾驶、生物制药等。值方法和策略优化是强化学习的两种主要方法。通用函数近似和自博弈训练范式的结合在值方法强化学习方面取得了巨大的成功。然而,这种组合的理论保证,如样本复杂度的上界,仍然尚不完整。另外,为了更好地理解策略优化算法及其学习理论,策略优化被发现可以看作是概率测度空间中的最优传输问题。但如何高效的基于最优传输框架解决策略优化是有待进一步研究的。基于上述分析,本文的主要研究内容如下:(1)第一部分工作的动机是这样一个问题:是否存在一个自博弈的、具有通用函数近似的、无模型的算法,且该算法是可证明有效的?本文提出了一种基于自博弈和通用函数近似的值方法强化学习算法,并证明了它的悔界的上界为??(????(??)√?),其中?是总学习时间步长,?是一幕长度,?是函数类的复杂度度量,它取决于脱离维度和对数覆盖数。这达到了因子?的基于信息论的理论下界。并且据我们所知,在??记号下,在通用价值函数近似、无模型和无需访问生成模型的情况下,这达到了迄今为止因子?的悔界的上界的最好情况。(2)在将策略优化看作概率测度空间中的最优传输问题的基础上,利用瓦瑟斯坦梯度流解决强化学习问题是一个有前景的选择。并且通常使用乔丹-金德莱勒-奥托方法近似强化学习领域中的瓦瑟斯坦空间离散扩散过程。然而,解决与每个乔丹-金德莱勒-奥托方法步骤相关的优化问题会带来严重的计算挑战。为了在更大规模的问题上使用瓦瑟斯坦梯度流强化学习方法,本文通过引入凸输入性神经网络对乔丹-金德莱勒-奥托方法进行改进。
其他文献
图数据在生物、化学信息学等领域有许多关键应用,如分子属性判断,新药发现等。图这种数据结构还可以用来表示关系型数据,比如社交网络、知识图谱等。图结构数据因为其强大的表示能力,受到越来越多研究人员的重视,使用图神经网络(Graph Neural Networks,GNN)从图数据中学习到的高质量的节点嵌入和图嵌入被广泛应用于图数据分析中,例如节点分类、连接预测以及图分类等问题。将CNN的卷积原理应用到
学位
甜菜红素是一种天然色素,广泛存在于红甜菜和火龙果皮及果肉之中。甜菜红素的主要成分甜菜红苷(Betanin,Bt)具有诸多功能特性,且被欧盟批准为红色食品着色剂,被广泛用作果酱、冰激凌、蛋糕等食品着色。但甜菜红苷易受温度等因素的影响,稳定性较差,目前研究通过小分子辅色、微胶囊化等方法改善甜菜红苷稳定性,虽有一定效果但存在诸多缺陷和安全隐患。本论文选用乳蛋白中的乳清蛋白(Whey Protein,WP
学位
特征选择是特征工程中的一个重要问题,是缓解“维数诅咒”的有效方法。随着大规模数据在各个领域的不断涌现,如何从高维数据中快速有效地识别关键特征,对鲁棒模型的构建,以及进一步从关键特征中发掘出隐藏信息,有着重要的社会价值和现实意义。本文的主要贡献在于针对特征选择问题改进差分进化算法和灰狼优化器,为缓解“维数诅咒”困境提供新模型、新方法。具体地,一种基于自适应机制的加权差分进化算法(Sa WDE)被提出
学位
嵌合酶是指由两种或两种以上酶的不同功能片段融合而成并呈现出新催化特性的酶分子。其出现及其相关技术的发展为酶工程的研究和应用提供了新策略。利用蛋白质工程技术构建嵌合酶来实现酶的底物选择偏好性改变一直是科学研究热点。基于此,本研究以Rhizomucor miehei来源的脂肪酶RML为研究对象,与实验室前期研究已挖掘出具有磷脂酶活力调控功能的蛋白元件嵌合,构建系列新型嵌合脂解酶,开展其酶学性质表征研究
学位
多智能体系统对解决分布式问题具有灵活性和智能性的特点,并且在仓库管理、自治交通工具、机器人、物流交付等多个领域有着广泛应用。多智能体路径规划是多智能体系统的核心问题,研究多智能体路径规划问题,可以提高多智能体系统的运行效率,同时对多智能体系统所应用的领域的发展有着深远影响和积极意义。虽然目前的多智能体路径规划方法已经取得不错的成果,然而,由于规划空间过于复杂,现有的方法将规划空间采样成为参考点或者
学位
赶黄草(Penthorum chinense Pursh),又名扯根菜,是虎耳草科扯根菜属植物,其富含黄酮类、萜类、多酚类、木脂素类、有机酸类等活性成分。现代药理学研究表明,赶黄草具有抗氧化、护肝利胆、抗病毒、抗肿瘤、抗炎、降血脂等多种生物活性。目前鲜有针对赶黄草不同地上部分的活性物质的对比研究,因此本文以赶黄草花总黄酮(H-Fla)、赶黄草叶总黄酮(Y-Fla)为研究对象,对其进行了提取工艺优化
学位
RNA结合蛋白(RNA-binding proteins,RBPs)是一类与RNA调节和代谢相关的蛋白质,在RNA成熟、转运、定位和翻译过程中起着重要作用。然而,生物实验性的全基因组RNA结合检测方法成本高且耗时。因此,迫切需要一种高效、快速的方法来利用从现有标注知识中学习到序列模式来预测RBP结合位点。由于紫外交联免疫沉淀结合高通量测序(CLIP-seq)的快速发展,积累了大量关于RNA分子与R
学位
单氯丙醇酯(monochloropropandiol esters,MCPDE)包括3-氯丙醇酯(3-monochloropropandiol esters,3-MCPDE)和2-氯丙醇酯(2-monochloropropandiol esters,2-MCPDE),与缩水甘油酯(glycidyl esters,GE)类物质是动植物油脂高热加工和食品烘焙、煎炸等热加工过程中常见有害物质。烘焙食品加
学位
菠萝作为世界著名的热带水果,被广泛应用于日常消费和深加工,但在这些过程中会产生大量的废弃余渣,如果不加以合理利用,会造成资源浪费和环境污染。然而,对于菠萝余渣纤维素进行高值化利用的相关报道较少。纤维素作为自然界中最丰富的一种多糖,约占菠萝加工余渣比重的40%,具有较大的提取和利用价值。纤维素纳米晶作为纤维素的衍生物,表现出极佳的力学性能、阻隔性能、表面活性和无毒性,在聚合物材料领域具有广泛的应用前
学位
机器人广泛应用于现代工业社会的各个领域,其中多模块机器人因其优秀的多任务多地形复杂场景适应性而受到广泛关注。多模块机器人的优势主要来自于其构型可以自由变化以及灵活的运动方式,研究者们通过良好的重构规划策略实现这些优势,而重构规划的关键技术包括构型选择和运动规划。另外,多模块机器人的各个模块都有着相对独立的感知能力和运动能力,在复杂地形场景下完成各类任务的过程中,规划策略应该在一定程度上保证其各个模
学位