非固定任务和非静态环境中强化学习方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sb0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习中的重要研究方向之一,通过让智能体在环境中不断试错学习,从而改善自身策略来获取最大的累积奖赏。近年来深度强化学习已经在很多序列决策问题上取得了重要突破和进展。传统强化学习方法一般针对固定的任务和静态的环境,然而,在很多真实世界的问题中,智能体不是仅完成一个任务,而是面对一系列任务,并且其所处环境也在动态变化,这就导致了传统强化学习方法的适用性大大下降,学习效果受到影响。针对非固定任务的应用场景,本文提出基于浅迹的元策略方法。元策略学习最大化的是在多个任务上的累积奖赏,而不是针对单个任务优化,这就使学习到的元策略可以在测试任务上进行重用,从而可以适应于非固定任务的情况。然而,元策略的重用会遇到两个主要的困难,其一是任务空间较大,其中可能存在一些不相关甚至是目标相矛盾的任务,一起训练会造成干扰,影响学习效果;其二是在训练和重用策略时,元策略学习需要有效的任务特征。为了解决上面这两个问题,我们提出了浅迹方法,并在此基础上提出了 MAPLE算法。OpenAI Gym的MuJoco环境上的实验显示出MAPLE算法可以在训练任务上学习到很好的策略,并且可在测试任务上重用,证明了提出的方法的有效性。针对非静态环境的应用场景,本文提出了鲁棒DQN方法。我们观察发现动态环境对强化学习的影响主要有两个方面,一是奖赏估计中的方差过大,二是奖赏波动。针对方差过大的问题,我们提出用分层采样回放方法来取代传统的随机采样回放方法,针对奖赏波动问题,我们提出了用近似遗憾奖赏方法来取代原始的瞬时奖赏。然后,我们将这两种方法与Double DQN算法结合,提出了鲁棒DQN算法,并在淘宝的锦囊推荐系统中进行了应用。我们首先证实了推荐平台上确实存在着高度的动态变化的情况,并通过线上A/B test实验证明了鲁棒DQN算法能够有效地稳定奖赏估计,从而能够提升智能体在真实的动态环境中的学习表现。
其他文献
生态问题关系到人类社会的永续发展,是当今社会的一个重要问题,而对生态问题进行深入研究就必须了解人类行动与生态环境之间的内在关联。从实践唯物主义视角来看,人类的行动
机器学习技术(如稀疏学习、支持向量机等)已被成功地应用到各个领域,包括图像处理,医学影像分析等。最近,研究人员也将机器学习应用到基于功能磁共振成像(functional magneti
南美白对虾营养价值丰富,捕捞后易腐烂变质。除少部分鲜食外,绝大部分采用速冻方法保藏,能耗较高、产品单一且附加值较低,难以满足市场需求。本文以南美白对虾为原料,采用烫
随着我国“一带一路”及“西部大开发”等战略方针的实施与推进,越来越多的桥梁、输电线塔以及高层建筑等不断建设。受工程地质条件和环境保护等方面的限制,某些基桩不得不建
张拉机构是一种由刚性杆件和柔性线索组成的柔性机构,这种刚柔并济的结构形式赋予了张拉机构极高的运动灵活性,在张拉机构中加入驱动器使其实现规定轨迹的可靠运动,即为张拉
随着纳米科技的迅猛发展,纳米材料的研究已经成为当今科学研究的热点。利用纳米材料制备得到的纳米生物传感器与传统的传感器相比较,具有响应速度快、灵敏度高、检测范围宽、
近年来,随着经济的快速发展和大数据时代的来临以及计算能力的提升,人工智能得到了迅速发展。深度学习作为新一代人工智能技术的代表者,在很多领域或任务上都取得较大突破。
近年来伴随国内交通行业的高速的增长,各类公路桥梁工程施工频繁发生事故,桥梁工程的施工风险评估重要性是日益凸显。桥梁整个寿命期当中,建设阶段作为公路桥梁安全事故中出
北斗三代卫星导航系统是由我国自主开发、运营的军民两用卫星导航系统,目前形成了区域组网能力,民用上能够为我国和“一带一路”沿线三十多个国家提供全天候、全地形的免费高
学位