强化学习场景中决策分布建模研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：naizhi1006

【摘要】

：

强化学习是智能决策领域中的重要研究方向。智能体能够通过试错学习的方式学会如何执行一项任务。结合上神经网络的后,这项技术在最近取得了一系列重大的成功,如在围棋领域击

【作者】

：

周勇

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

机器学习深度学习强化学习模仿学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是智能决策领域中的重要研究方向。智能体能够通过试错学习的方式学会如何执行一项任务。结合上神经网络的后,这项技术在最近取得了一系列重大的成功,如在围棋领域击败当前最好的人类选手,在49个Atari游戏中表现超过人类玩家,以及在许多机器人任务中取得了突破。然而强化学习常常面临效率不高的问题,智能体需要在环境中进行大量的交互,消耗大量样本。通常来说,在强化学习中环境的反馈都是滞后的,虽然在环境中的每一步行动都会给予一个反馈,但是最终需要优化的累计回报在时间上存在一定的滞后性,这就造成了强化学习在学习时效率不高的问题。我们在研究中发现对决策分布进行建模可有效缓解反馈滞后的阻碍。本文对课程学习和模仿学习两种有效解决反馈滞后的方法开展研究,通过加入决策分布建模技术,取得了性能的提升,具体工作如下:1.在课程强化学习中,以往方法智能体无法区分已学习子问题和未学习子问题,造成智能体在已学习子问题上进行无效探索,造成探索样本浪费,针对该问题本文提出了课程问题空间的决策分布建模方法用来区分不同子问题,以此来控制智能体的探索力度。实验表明,通过密度估计来控制探索的方法能够有效减少不必要的探索样本消耗。该方法被分别应用于人工设计的课程与自动生成的课程中,都对学习效率有明显的提升。2.在模仿强化学习中,以往方法无法应对环境变动,造成模仿学习的结果泛化能力不足,针对该问题本文提出了环境空间的决策分布建模方法,可从有限的专家数据中生成有效的决策模型,该方法用于仓库派单应用场景中模仿拣选员的行为分布,并用于优化派单决策。在离线和线上A/B测试中,环境空间的决策分布建模方法远超传统方法的性能,尤其是在线上应用时对于拣选效率有10%左右的提升。

其他文献

微型电化学传感器原位分析鼠脑内小分子

一直以来,大脑都是科学家们不懈研究的重要领域。大脑内的神经递质、神经调质和其他神经化学物质与其正常工作密切相关,影响神经系统的化学物质负责在神经元突触之间传递信息

学位

NOO2pH5-HT微电极原位缺血中脑动脉闭塞(MCAO)再灌注鼠脑电化学生物传感器差分脉冲伏安法

小训练样本驱动下用于稀疏冗余表示的字典学习算法

信号的稀疏表示问题是最近几年的研究热点,本文主要研究用于稀疏表示的KSVD字典学习算法。稀疏表示是使用少数几个过完备字典中的原子线性逼近信号的过程,选取合适的字典可以

学位

稀疏表示字典学习KSVD小样本原子集合的冗余性图像去噪

基于DLUKF的非线性控制方法研究

板球系统是经典的非线性运动控制系统,因其存在强非线性、强耦合性,对调节速度及超调量要求高等控制难点,被广泛用于控制方法有效性的验证及不同算法控制效果对比。连续搅拌

学位

非线性LTRCSTR板球系统卡尔曼滤波器DLUKF

软件众包中复合任务功能规约的验证技术研究

软件众包作为一种新型的软件开发模式,消除了传统软件开发对开发人员地理因素和人员集中的限制,采用群体竞争和多人在线合作的方式共同完后一个软件项目。软件众包具有低成本、高效率、高质量及自由度大等优势,因此近年来获得了越来越多的关注,国内外软件众包平台也得到了迅速的发展。当前的软件众包平台,一类仅支持微小且可快速完成和验收的任务,一类则直接将整个软件系统的开发作为一个任务发布。对软件众包过程中的复合任务

学位

软件众包任务分解功能规约形式化方法测试验证

二氧化钛异质结纳米材料的制备及其在光电化学适配体传感器中的应用

光电化学（PEC）方法是一种新型、快速和低成本的检测技术,在仪器分析领域有广阔的应用前景。PEC生物传感技术将光电化学技术与生物识别方法结合在一起,并通过光激发光敏材料产生

学位

TiO2复合纳米材料MgIn2S4纳米片氧空位FeVO4纳米粒子PEC适配体传感器

中国品牌全球化进程中刻板印象变化的机理研究

随着中国经济的快速发展,中国品牌国际化进程将加快,将有越来越多的中国品牌走向国际市场,中国品牌国际化进程也受到业界、学界和政界的重视。总体而言,中国作为品牌来源国在

学位

共同价值观品牌态度品牌来源国形象品牌刻板印象文化定位战略

基于DEA模型的雾霾排放效率的评估研究

近年来,随着我国经济迅猛发展,粗放型的经济增长方式带来高强度的污染排放。空气污染问题日益严峻,尤其是雾霾污染频繁发生,引发社会各界的广泛关注。如何采取有效措施应对雾霾等大气污染带来的挑战是中国环境治理亟待解决的关键难题。文章首先根据冗余削减原理,以中国各省份为例,研究雾霾污染的投入指标的削减问题;其次从雾霾污染产生-治理过程出发,采用二阶段DEA模型,研究雾霾污染排放的多阶段效率等问题;最后考虑雾

学位

雾霾PM2.5二阶段DEA模型竞合DEA模型雾霾排放效率

轴压比对玻化微珠保温混凝土剪力墙抗震性能的影响

玻化微珠保温混凝土是一种既具有保温隔热性能又能够用于结构承重构件的新兴混凝土材料。玻化微珠保温混凝土在实现保温与结构系统同寿命、减轻混凝土结构自重的同时显著提高

学位

玻化微珠剪力墙轴压比承载力抗震性能有限元分析

磁流体液压介质制备与磁粘特性试验研究

液压传动以功率密度大等独特优势,在各类机械装备中得到了极为广泛的应用。液压工作介质作为液压系统动力传递与控制的媒介,在系统中起着至关重要的决定性作用。粘度是液压介

学位

纳米磁流体液压介质沉降稳定性磁粘特性

用于Ring-LWE密码体制的高斯采样器硬件实现研究

通信技术随着人类对高效快捷传输信息的追求不断发展,保护海量信息的传输安全始终是重中之重,体现在加密技术的不断发展上。加密技术从早期的古典密码逐步发展为基于单向陷门函数公钥加密技术。目前主流的RSA、ECC公钥密码体制基于困难的数学问题,被广泛应用于信息安全领域。但随着量子计算的发展,存在被破解的风险。Ring-LWE是格上困难问题,基于该难题的公钥密码体制凭借着电路实现简单、抗量子攻击等特性,是后

学位

格密码学环上带误差学习问题高斯采样器侧信道攻击资源限定设备

强化学习场景中决策分布建模研究

与本文相关的学术论文