强化学习场景中决策分布建模研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:naizhi1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是智能决策领域中的重要研究方向。智能体能够通过试错学习的方式学会如何执行一项任务。结合上神经网络的后,这项技术在最近取得了一系列重大的成功,如在围棋领域击败当前最好的人类选手,在49个Atari游戏中表现超过人类玩家,以及在许多机器人任务中取得了突破。然而强化学习常常面临效率不高的问题,智能体需要在环境中进行大量的交互,消耗大量样本。通常来说,在强化学习中环境的反馈都是滞后的,虽然在环境中的每一步行动都会给予一个反馈,但是最终需要优化的累计回报在时间上存在一定的滞后性,这就造成了强化学习在学习时效率不高的问题。我们在研究中发现对决策分布进行建模可有效缓解反馈滞后的阻碍。本文对课程学习和模仿学习两种有效解决反馈滞后的方法开展研究,通过加入决策分布建模技术,取得了性能的提升,具体工作如下:1.在课程强化学习中,以往方法智能体无法区分已学习子问题和未学习子问题,造成智能体在已学习子问题上进行无效探索,造成探索样本浪费,针对该问题本文提出了课程问题空间的决策分布建模方法用来区分不同子问题,以此来控制智能体的探索力度。实验表明,通过密度估计来控制探索的方法能够有效减少不必要的探索样本消耗。该方法被分别应用于人工设计的课程与自动生成的课程中,都对学习效率有明显的提升。2.在模仿强化学习中,以往方法无法应对环境变动,造成模仿学习的结果泛化能力不足,针对该问题本文提出了环境空间的决策分布建模方法,可从有限的专家数据中生成有效的决策模型,该方法用于仓库派单应用场景中模仿拣选员的行为分布,并用于优化派单决策。在离线和线上A/B测试中,环境空间的决策分布建模方法远超传统方法的性能,尤其是在线上应用时对于拣选效率有10%左右的提升。
其他文献
一直以来,大脑都是科学家们不懈研究的重要领域。大脑内的神经递质、神经调质和其他神经化学物质与其正常工作密切相关,影响神经系统的化学物质负责在神经元突触之间传递信息
信号的稀疏表示问题是最近几年的研究热点,本文主要研究用于稀疏表示的KSVD字典学习算法。稀疏表示是使用少数几个过完备字典中的原子线性逼近信号的过程,选取合适的字典可以
板球系统是经典的非线性运动控制系统,因其存在强非线性、强耦合性,对调节速度及超调量要求高等控制难点,被广泛用于控制方法有效性的验证及不同算法控制效果对比。连续搅拌
软件众包作为一种新型的软件开发模式,消除了传统软件开发对开发人员地理因素和人员集中的限制,采用群体竞争和多人在线合作的方式共同完后一个软件项目。软件众包具有低成本、高效率、高质量及自由度大等优势,因此近年来获得了越来越多的关注,国内外软件众包平台也得到了迅速的发展。当前的软件众包平台,一类仅支持微小且可快速完成和验收的任务,一类则直接将整个软件系统的开发作为一个任务发布。对软件众包过程中的复合任务
光电化学(PEC)方法是一种新型、快速和低成本的检测技术,在仪器分析领域有广阔的应用前景。PEC生物传感技术将光电化学技术与生物识别方法结合在一起,并通过光激发光敏材料产生
随着中国经济的快速发展,中国品牌国际化进程将加快,将有越来越多的中国品牌走向国际市场,中国品牌国际化进程也受到业界、学界和政界的重视。总体而言,中国作为品牌来源国在
近年来,随着我国经济迅猛发展,粗放型的经济增长方式带来高强度的污染排放。空气污染问题日益严峻,尤其是雾霾污染频繁发生,引发社会各界的广泛关注。如何采取有效措施应对雾霾等大气污染带来的挑战是中国环境治理亟待解决的关键难题。文章首先根据冗余削减原理,以中国各省份为例,研究雾霾污染的投入指标的削减问题;其次从雾霾污染产生-治理过程出发,采用二阶段DEA模型,研究雾霾污染排放的多阶段效率等问题;最后考虑雾
玻化微珠保温混凝土是一种既具有保温隔热性能又能够用于结构承重构件的新兴混凝土材料。玻化微珠保温混凝土在实现保温与结构系统同寿命、减轻混凝土结构自重的同时显著提高
液压传动以功率密度大等独特优势,在各类机械装备中得到了极为广泛的应用。液压工作介质作为液压系统动力传递与控制的媒介,在系统中起着至关重要的决定性作用。粘度是液压介
通信技术随着人类对高效快捷传输信息的追求不断发展,保护海量信息的传输安全始终是重中之重,体现在加密技术的不断发展上。加密技术从早期的古典密码逐步发展为基于单向陷门函数公钥加密技术。目前主流的RSA、ECC公钥密码体制基于困难的数学问题,被广泛应用于信息安全领域。但随着量子计算的发展,存在被破解的风险。Ring-LWE是格上困难问题,基于该难题的公钥密码体制凭借着电路实现简单、抗量子攻击等特性,是后