论文部分内容阅读
【摘 要】深度强化学习引发了人工智能领域的革命性突破,成为问题解决的通用框架。该学习模式将深层神经网络融入强化学习,不但在图像识别和自然语言处理等领域取得突破性的进展,更在围棋等复杂棋类游戏中具有超人的表现。总结归纳深度强化学习模式的优势在于其具有的6项重要学习机制。然而,这种模式也存在样本数据有效性低的痛点问题。为此提出情景元深度强化学习的改进技术,力图解决困扰深度强化学习的慢速和收敛稳定问题。这对深度强化学习技术的实际应用起到有效的推动作用。
【关键词】深度强化学习;学习机制;情景深度强化学习;元学习;人工智能
引言
近几年人工智能(Artificial Intelligence, AI)的研究取得了革命性的进展。神经网络(Neural Network)或深度学习(Deep Learning,DL)方法的复兴推动了人工智能在图像识别、自然语言处理和许多其他领域的技术突破。
强化学习(Reinforcement learning,RL)与深度学习相结合,产生的深度强化学习(Deep Reinforcement Learning,DRL)近年也取得了令人惊叹的成就。特别是在围棋和象棋等复杂棋类游戏中的超人表现,使其迅速成为人工智能领域的研究热点。
1.深度强化学习的痛点问题及原因
深度强化学习不是从更明确的教学中学习,而是一套学习奖惩的方法,如图所示。表面看来,深度强化学习系统的学习方式与人类截然不同。然而深入探究深度强化学习机制的产生背景,则发现深度强化学习系统的学习机制最初来自动物条件的作用研究,并与以多巴胺为中心的基于奖励学习的神经机制密切相关。特别是深度强化学习系统利用神经网络学习支持环境的泛化和强大的迁移学习能力,这正是生物大脑的关键能力。
1.1深度强化学习存在的痛点问题
然而,由于现实存在的深度强化学习系统的样本数据有效性低这一痛点问题,使得大多数深度强化学习系统运行太慢。典型的实例是,为了在国际象棋及围棋之类的任务上,深度强化学习系统获得人类专家级的水平,DRL系统需要比人类专家本身多许多数量级的训练数据。若将样本效率定义为一个学习系统达到任何选定的目标性能水平所需的数据量,则在样本效率方面,人类学习与深度强化学习存在显著的差异。换言之,深度强化学习的样本效率极低,无法为人类的学习提供一个合理的模型。
1.2深度强化学习痛点问题的原因
深度强化学习中系统收敛速度慢、样本效率低是其痛点问题,归结其原因是:
首要原因是参数增量小步长调整的要求。在人工智能研究中广泛使用的深度强化学习系统都使用神经网络来连通从感知输入到动作输出,采用梯度下降法对参数进行迭代更新直到收敛。正如不仅在人工智能领域,而且在心理学领域广泛讨论的那样,在这种学习形式中所做的参数增量调整必须很小,以便最大限度地收敛和泛化。如果参数增量过大,导致覆盖早期学习的效果,出现灾难性干扰会导致神经网络无法收敛不稳定的情况。深度强化学习中对参数增量小步长调整的需求是DRL系统缓慢的原因。
第二个原因是弱偏置假设。学习理论阐明,任何学习过程都必然面临偏置假设与方差的权衡。学习过程中需要学习的模式的初始偏置假设越强,即模型的假设空间越小且与实际数据中的内容匹配,学习过程的初始模型正确度越高,完成学习所需的数据就越少。反之,如果学习过程中需要学习的模式的初始偏置假设较弱,即模型的假设空间越大,就能够适合更广泛的模式且允许更大的方差,但通常导致样本效率较低。重要的是,深度强化学习使用的泛型神经网络是一种极弱偏置假设的学习系统,即模型的假设空间极大,模型有许多表征连接权重的参数,且使用这些参数来拟合广泛的数据。正如偏置假设与方差权衡所决定的,这表明普通的深度强化学习模型中采用的一般形式的神经网络往往样本效率低下,需要大量的数据来学习。
2.深度强化学习重要机制
深度强化学习能够解决诸多人工智能领域的现实问题,成为通用的问题解决框架,是因为存在以下发挥重要作用的机制,包括注意和记忆、無监督学习、转移学习、多智能体强化学习、分层强化学习和习得学习等机制。
2.1注意力和存储机制
这是一种专注于突出部分的机制。存储器提供长时间的数据存储,而注意力聚焦则是存储器寻址的一种方法。
可微神经计算机(Differentiable Neural Computer, DNC)中的神经网络可以对外部存储器进行读写,因此DNC就可以解决复杂的结构化问题,而没有读写存储器的神经网络无法解决这些问题。DNC将内存分配干扰降至最低,并支持长期存储。与传统计算机类似,在DNC中,神经网络是控制器,外部存储器是随机存取存储器;DNC用存储器来表示和操作复杂的数据结构。不同的是,DNC以一种目标导向的方式,通过梯度下降从数据端到端地学习这种表示和操作。在有监督学习的训练下,DNC可以解决自然语言推理和推理中的综合问答问题;它可以解决交通网络中两站之间的最短路径发现问题和家谱中的关系推理问题。当使用强化学习训练时,DNC可以解决由符号序列指定的目标变化的移动块难题。在进行的小规模实验中,DNC的表现优于正常的神经网络,如长短时记忆网络(Long Short Term Memory networks, LSTM)或DNC的前体神经图灵机。可以预期DNC能得到进一步的改进和应用。
2.2无监督学习机制
无监督学习是一种利用海量数据的方法,是实现通用人工智能的关键机制。无监督学习分为非概率模型,如稀疏编码、自动编码器、k-Means等,以及概率(生成)模型,其中涉及密度函数(显式还是隐式)。在具有显式密度函数的概率(生成)模型中,有些具有可跟踪模型,如完全可观测的信念网和神经自回归分布估计器等;有些具有不可跟踪模型,如Botlzmann机、变分自编码器、Helmhotz机,对于具有隐式密度函数的概率(生成)模型,则有生成对抗网络(Generative Adversarial Networks, GANs)、矩匹配网络等。 Horde值函数:采用一般价值函数表示知识,其中策略、终止函数、奖励函数和终端奖励函数是参数。这是一种可扩展的实时体系结构,用于从无监督的感觉运动交互作用(即无向信号和观察)中学习独立智能体的一般值函数。Horde值函数可以学习预测许多传感器的值,并使用一般的值函数来最大化这些传感器值的策略,来回答预测性或目标导向的问题。Horde值函数是非策略的,即在遵循其他行为策略的同时进行实时学习,并采用基于梯度的时差学习方法进行学习,每一时间步的时间和内存复杂度都是恒定的。
辅助学习:环境可能包含丰富的可能训练信号,有助于加速实现累积奖励最大化的主要目标,例如像素变化可能暗示重要事件,辅助奖励任务有助于实现奖励状态的良好表示。当外在的奖励信号很少被观察到时,这有很大的帮助。无监督强化学习和辅助学习(UNsupervised REinforcement and Auxiliary Learning, UNREAL)可以提高学习效率,除了通常的累积奖励外,还通过最大化伪奖励函数来提高学习效率,同时共享一个共同的表征。UNREAL由RNN-LSTM基代理、像素控制、奖励预测和值函数反馈组成。基本智能体通过异步动作者-评判者算法 (Asynchronous Actor Critic, A3C) 策略训练,观察、奖励和行动的经验被储存在应答缓冲区中,供辅助任务使用。辅助策略使用基本的卷积神经网络(Convolutional Neural Network, CNN)和LSTM,加上一个反卷积网络,使输入图像不同区域的像素强度变化最大化。奖励预测模块通过观察后三帧预测下一帧的短期外部奖励,以解决奖励稀疏的问题。值函数反馈进一步训练了值函数。
生成对抗网络:同时训练两个模型,通过对抗过程估计生成模型,生成模型G用于捕获数据分布,判别模型D用于估计来自训练数据而非生成模型G的样本的概率。通过用多层感知器对G和D进行建模,当G和D的训练数据集有足够的容量时,生成对抗网可以恢复数据生成分布,并通过小批量随机梯度下降提供了一种带反向传播的G和D训练算法。
2.3迁移学习机制
传统的机器学习特别是深度学习只有在特定领域的训练集数据和测试集数据都来自同一个特征空间和统一分布的时候,学习和应用的效果比较好。因此当应用领域变化和数据集发生变化时,都要重新训练模型。
迁移学习是指将从不同领域学到的知识进行迁移,新的应用领域可能具有与原来学习和训练的数据集不同的特征空间和/或不同的数据分布。迁移学习包括归纳迁移学习、转化迁移学习及无监督迁移学习。归纳迁移学习包括自学学习和多任务学习;而转化迁移学习包括领域适应和样本选择偏置假设/协方差偏移。
目前提出的两个智能体学习多种技能的多技能问题,定义了用于映射状态和投射技能执行的公共表示,并设计了两个智能体最大限度地转移信息特征空间以转移新技能的算法,该算法采用相似性损失度量法,自动编码,强化学习。通过用两个模拟机器人操作任务已经验证了这种方法。
2.4多智能体强化学习机制
多智能体强化学习是多智能体系统(Multi-Agent)与强化学习系统的集成,因此处于博弈论与强化学习/人工智能社区的交叉点。除了强化学习中的收敛性和维数爆炸等问题外,还有诸如多重均衡的新问题,甚至还有诸如多智能体学习的问题是什么,收敛到均衡点是否是一个合适的目标等基本问题。因此,多智能体学习在技术和概念上都是一个挑战,需要清楚地理解待解决的问题、评估标准和连贯的研究过程。
2.5分层强化学习机制
分层强化学习是一种在多个层次上通过时空抽象来学习、规划和表示知识的方法。分层强化学习也是一种解决稀疏报酬和长期视野问题的方法。专注写入策略架构 (STRategic Attentive Writer, STRAW)是一种深度递归神经网络架构,用于根据环境观察结果,以端到端的方式学习高层时间抽象宏观行为。宏动作是指发生的一系列动作。STRAW建立了一个多步骤的动作计划,根据观察到的奖励定期更新,并通过遵循计划而无需重新计划来学习执行计划的时间。STRAW学会了从数据中自动发现宏动作,这与以前工作中的手动方法不同。
分层DQN(hierarchical-DQN, h-DQN),通过分层组织目标驱动的内在激励深度强化学习模块在不同的时间尺度上工作。h-DQN集成了一个顶层的动作值函数和一个较低层次的动作值函数;前者学习一个超过内在子目标或选项的策略;后者学习一个超过原始动作的策略来满足给定的子目标。
使用带有信息论正则化器的随机神经网络对大跨度的技能进行预训练,然后在这些技能的基础上,为下阶段任务训练高级策略。预训练基于智能体的奖励信号,这是一种探索智能体自身能力的内在动机,其设计要求对下阶段任务领域知识最少。这种方法将层次分析法与内在动机相结合,并且预训练遵循无监督的方式。此外,还可以采用终身学习的分層深层RL网络架构,进行学习可重用的技能或子目标,将学习的知识迁移到新的任务中。
2.6习得学习机制
习得学习也被称为元学习,是学习如何快速适应新的任务。它涉及迁移学习、多任务学习、表征学习和一次/少量/零次(映射)学习。也可以将超参数学习和神经结构设计看作是习得学习,它是实现强人工智能的核心,也是深度强化学习的发展方向。
一次/少量/零次(映射)学习是指在深度学习的训练集中,每个类别都只有一个或几个的少量样本、或者没有某个类别的样本,但仍然可以通过习得学习及迁移学习等得到一个映射学习模型,实现对各个类别都有较好的泛化效果。
3.深度强化学习的改进技术
针对第一代深度强化学习模型收敛缓慢的痛点问题及归因,可以采用以下两种具体技术,即情景深度强化学习及元学习技术,更进一步,可以将这两种技术有机融合,构成情景元深度强化学习技术。 3.1情景深度强化学习
考虑到参数增量调整是深度强化学习中收敛速度慢的重要原因,那么一个更快学习的方法则是避免这种增量更新。根据以上的分析,如果单纯地提高梯度下降优化的参数增量会导致灾难性干扰致使神经网络无法收敛不稳定的问题。然而,实现此目标可以采用另一种方法,即明确记录过去的事件,并直接将其作为制定新决策的参考依据。这一概念被称为情景深度强化学习,与机器学习中的“非参数”方法相似,类似于心理学中的“实例学习”或“范例学习”理论,通过情景记忆快速学习。当遇到新情况时,必须决定采取什么行动,程序是将当前情况的内部表示与过去情况的存储表示进行比较。然后基于与现在最相似的过去情况的结果,选择与最大值函数相关联的行动。当用多层神经网络计算内部状态表示时,这种算法称为“情景深度强化学习”。
在情景深度强化学习中,与标准的增量方法不同,通过每个经验事件获得的信息可以立即用于指导行为。然而,尽管早期的深度强化学习方法显得很“慢”,但是情景性的深度强化学习能够“快”起来,但是这有一个转折点:情节性深度强化学习的快速学习严重依赖于缓慢的增量学习。这是对连接权重的逐渐学习,允许系统形成有用的内部表示或每个新观察的嵌入。这些表示的格式本身是通过经验学习的,使用与标准深度强化学习的主干相同的增量参数更新。最终,情景深度强化学习的速度还是由这种较慢的学习形式实现的。即情景深度强化学习的快速学习是通过缓慢的深度强化学习来实现的。
这种“快速学习对慢学习的依赖”并不是巧合。正如将在下面讨论的情况,这是一个基本原则,不但适用于心理学和神经科学,同样也适用人工智能领域。
3.2元学习:通过学习来加速深度强化学习
如前所述,除了增量更新之外,标准深度强化学习过程收敛缓慢的第二个主要原因是弱偏置假设。正如偏置假设与方差权衡的概念所规定的那样,快速学习要求学习者对其将要面对的模式结构提出一套合理规模的假设。偏置假设越强,学习的速度就越快。然而,正如前面所预示的问题:一个较强的假设集只有在包含正确假设的情况下才能加快学习速度。虽然强烈的归纳偏置假设可以加速学习,但只有当学习者采用的特定偏置假设恰好与要学习的材料相匹配时,才可以实现这种效果。因此,一个新的学习问题又出现了:学习者如何知道应该采用什么样的偏置假设呢?
对这个问题的很自然的回答就是借鉴过去的经验。诚然,在日常生活中也经常发生这种情形。例如,考虑学习使用新智能手机的日常任务。在这种情况下,人们过去使用智能手机和其他相关设备的经验将告诉他们关于新手机应该如何工作的假设,并将指导其对手机操作的探索。这些最初的假设与偏置假设-方差权衡中的“偏置假设”相对应,这有助于快速学习如何使用新手机。如果没有这些假设,就必须考虑更大范围的学习偏置假設。
利用过去的经验加速新的学习在机器学习中被称为习得学习。其实这一理念源于心理学,在心理学中它被称为“元学习”。元学习可以在深度强化学习中加速学习的过程。此时,用一系列相关的强化学习任务对一个递归神经网络RNN进行训练,RNN网络中的权重调整得非常慢,因此RNN网络可以吸收任务之间的共同点,但无法快速更改以支持任何单个任务的解决方案。RNN递归神经网络实现了各自独立的强化学习算法,该算法基于过去任务积累的知识,能够快速解决每个新任务。
与情景深度强化学习一样,元学习又涉及到快速和缓慢学习之间的密切联系。递归网络中的连接在任务间缓慢更新,允许跨任务的一般原则“嵌入”递归网络的动态。由此产生的RNN神经网络实现了一种新的学习算法,可以快速解决新问题,因为慢学习的潜在过程赋予了其有用的归纳偏置假设。这里再次看到,快速学习源于慢学习,并由缓慢学习促成。
3.3情景元深度强化学习
以上实现的两种技术并不相互排斥,这非常重要。事实上,可以整合元学习和情景控制的方法,充分利用它们的互补优势。在情景元深度强化学习模式中,在递归神经网络RNN中进行元学习。同时,在RNN之上叠加一个情景记忆系统,其作用是恢复重复网络中的活动模式。与在情景深度强化学习中一样,情景记忆对一组过去的事件进行编目,这些事件可以基于当前上下文进行查询。然而,不是将上下文与行动值估计联系起来,而是将上下文与递归网络内部或隐藏单元中存储的活动模式联系起来。这些模式很重要,因为通过元深度强化学习,总结了智能体从与单个任务的交互中学到的模式。在情景元深度强化学习中,当智能体遇到与过去遇到的情况相似的情况时,它将恢复先前遇到的内部设置,允许先前获得的信息立即影响当前策略。实际上,场景内存允许系统识别以前遇到的任务,检索存储的解决方案加以应用。
通过模拟工作和导航任务,显示出情景元深度强化学习,学会了强烈的归纳偏置假设,使其能够快速解决新任务。更重要的是,当遇到一个以前遇到的任务时,情景元深度强化学习会立即检索并重新测试以前发现的解决方案。当遇到新任务时,情景元深度强化学习系统受益于元深度强化学习的快速性;而在第二次及以后的遭遇中,系统又得益于情景控制所赋予的一次性学习能力。
4.结语
深度强化学习(DRL)方法的突破推动了人工智能领域令人可喜的进步。深度强化学习的6种重要的学习机制以及2项改进技术,克服了模型收敛速度慢和样本效率低下的痛点问题,使深度强化学习模式在众多的领域能够卓有成效的应用。在教育领域,深度强化学习在基于教育大数据的教学自动评估中发挥重要和不可替代的作用。
参考文献
[1] BOTVINICK M, RITTER S, WANG J X, et al. Reinforcement Learning, Fast and Slow [J]. Trends in Cognitive Sciences, 2019, 23(5): 408-22. [2]万里鹏, 兰旭光, 张翰博, et al. 深度强化学习理论及其应用综述 [J]. 模式识别与人工智能, 2019, 32(01): 67-81.
[3] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature, 2017, 550(7676): 354-+.
[4] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.
[5] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38.
[6] 汪晨,曾凡玉,郭九霞.記忆增强型深度强化学习研究综述[J].小型微型计算机系统, 2021, 42(03):454-461.
[7] 赵星宇,丁世飞. 深度强化学习研究综述 [J]. 计算机科学, 2018, 45(07): 1-6.
[8] 秦智慧,李宁,刘晓彤等.无模型强化学习研究综述[J].计算机科学, 2021, 48(03):180-187.
[9] 孙路明,张少敏,姬涛等. 人工智能赋能的数据管理技术研究 [J]. 软件学报, 2020, 31(03): 600-19.
[10] 唐浪,李慧霞,颜晨倩,郑侠武,纪荣嵘.深度神经网络结构搜索综述[J].中国图象图形学报, 2021, 26(02):245-264.
基金项目:①广东省教育厅2019年度普通高校特色创新类项目(2019GKTSCX152); ②广东省教育厅2018年度重点平台及科研项目特色创新项目(2018GWTSCX030);③广东省教育厅2018年度省高等职业教育教学质量与教学改革工程教育教学改革研究与实践项目(GDJG2019309);④广州涉外经济职业技术学院2020科研项目重点项目(2020KY02);5.广州涉外经济职业技术学院2020年校级质量工程重点项目(SWZL202001)。
作者简介:吴英萍(1982.10-),讲师,学士,广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术,人工智能;
*通讯作者:耿江涛(1965.12-),教授,高级工程师,华南师范大学博士生,广州涉外经济职业技术学院教育研究院教授。研究方向为大数据应用技术,人工智能,高职教育管理与国际化。
熊晓波(1970.06-),教授,硕士,广州涉外经济职业技术学院副校长兼信息工程学院院长。研究方向为计算机科学与技术,高职教育管理。
余雪莲(1993.06-),助教,学士,广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术,人工智能。
1.广州涉外经济职业技术学院 广东广州 510540
2. 华南师范大学 广东广州 510631
【关键词】深度强化学习;学习机制;情景深度强化学习;元学习;人工智能
引言
近几年人工智能(Artificial Intelligence, AI)的研究取得了革命性的进展。神经网络(Neural Network)或深度学习(Deep Learning,DL)方法的复兴推动了人工智能在图像识别、自然语言处理和许多其他领域的技术突破。
强化学习(Reinforcement learning,RL)与深度学习相结合,产生的深度强化学习(Deep Reinforcement Learning,DRL)近年也取得了令人惊叹的成就。特别是在围棋和象棋等复杂棋类游戏中的超人表现,使其迅速成为人工智能领域的研究热点。
1.深度强化学习的痛点问题及原因
深度强化学习不是从更明确的教学中学习,而是一套学习奖惩的方法,如图所示。表面看来,深度强化学习系统的学习方式与人类截然不同。然而深入探究深度强化学习机制的产生背景,则发现深度强化学习系统的学习机制最初来自动物条件的作用研究,并与以多巴胺为中心的基于奖励学习的神经机制密切相关。特别是深度强化学习系统利用神经网络学习支持环境的泛化和强大的迁移学习能力,这正是生物大脑的关键能力。
1.1深度强化学习存在的痛点问题
然而,由于现实存在的深度强化学习系统的样本数据有效性低这一痛点问题,使得大多数深度强化学习系统运行太慢。典型的实例是,为了在国际象棋及围棋之类的任务上,深度强化学习系统获得人类专家级的水平,DRL系统需要比人类专家本身多许多数量级的训练数据。若将样本效率定义为一个学习系统达到任何选定的目标性能水平所需的数据量,则在样本效率方面,人类学习与深度强化学习存在显著的差异。换言之,深度强化学习的样本效率极低,无法为人类的学习提供一个合理的模型。
1.2深度强化学习痛点问题的原因
深度强化学习中系统收敛速度慢、样本效率低是其痛点问题,归结其原因是:
首要原因是参数增量小步长调整的要求。在人工智能研究中广泛使用的深度强化学习系统都使用神经网络来连通从感知输入到动作输出,采用梯度下降法对参数进行迭代更新直到收敛。正如不仅在人工智能领域,而且在心理学领域广泛讨论的那样,在这种学习形式中所做的参数增量调整必须很小,以便最大限度地收敛和泛化。如果参数增量过大,导致覆盖早期学习的效果,出现灾难性干扰会导致神经网络无法收敛不稳定的情况。深度强化学习中对参数增量小步长调整的需求是DRL系统缓慢的原因。
第二个原因是弱偏置假设。学习理论阐明,任何学习过程都必然面临偏置假设与方差的权衡。学习过程中需要学习的模式的初始偏置假设越强,即模型的假设空间越小且与实际数据中的内容匹配,学习过程的初始模型正确度越高,完成学习所需的数据就越少。反之,如果学习过程中需要学习的模式的初始偏置假设较弱,即模型的假设空间越大,就能够适合更广泛的模式且允许更大的方差,但通常导致样本效率较低。重要的是,深度强化学习使用的泛型神经网络是一种极弱偏置假设的学习系统,即模型的假设空间极大,模型有许多表征连接权重的参数,且使用这些参数来拟合广泛的数据。正如偏置假设与方差权衡所决定的,这表明普通的深度强化学习模型中采用的一般形式的神经网络往往样本效率低下,需要大量的数据来学习。
2.深度强化学习重要机制
深度强化学习能够解决诸多人工智能领域的现实问题,成为通用的问题解决框架,是因为存在以下发挥重要作用的机制,包括注意和记忆、無监督学习、转移学习、多智能体强化学习、分层强化学习和习得学习等机制。
2.1注意力和存储机制
这是一种专注于突出部分的机制。存储器提供长时间的数据存储,而注意力聚焦则是存储器寻址的一种方法。
可微神经计算机(Differentiable Neural Computer, DNC)中的神经网络可以对外部存储器进行读写,因此DNC就可以解决复杂的结构化问题,而没有读写存储器的神经网络无法解决这些问题。DNC将内存分配干扰降至最低,并支持长期存储。与传统计算机类似,在DNC中,神经网络是控制器,外部存储器是随机存取存储器;DNC用存储器来表示和操作复杂的数据结构。不同的是,DNC以一种目标导向的方式,通过梯度下降从数据端到端地学习这种表示和操作。在有监督学习的训练下,DNC可以解决自然语言推理和推理中的综合问答问题;它可以解决交通网络中两站之间的最短路径发现问题和家谱中的关系推理问题。当使用强化学习训练时,DNC可以解决由符号序列指定的目标变化的移动块难题。在进行的小规模实验中,DNC的表现优于正常的神经网络,如长短时记忆网络(Long Short Term Memory networks, LSTM)或DNC的前体神经图灵机。可以预期DNC能得到进一步的改进和应用。
2.2无监督学习机制
无监督学习是一种利用海量数据的方法,是实现通用人工智能的关键机制。无监督学习分为非概率模型,如稀疏编码、自动编码器、k-Means等,以及概率(生成)模型,其中涉及密度函数(显式还是隐式)。在具有显式密度函数的概率(生成)模型中,有些具有可跟踪模型,如完全可观测的信念网和神经自回归分布估计器等;有些具有不可跟踪模型,如Botlzmann机、变分自编码器、Helmhotz机,对于具有隐式密度函数的概率(生成)模型,则有生成对抗网络(Generative Adversarial Networks, GANs)、矩匹配网络等。 Horde值函数:采用一般价值函数表示知识,其中策略、终止函数、奖励函数和终端奖励函数是参数。这是一种可扩展的实时体系结构,用于从无监督的感觉运动交互作用(即无向信号和观察)中学习独立智能体的一般值函数。Horde值函数可以学习预测许多传感器的值,并使用一般的值函数来最大化这些传感器值的策略,来回答预测性或目标导向的问题。Horde值函数是非策略的,即在遵循其他行为策略的同时进行实时学习,并采用基于梯度的时差学习方法进行学习,每一时间步的时间和内存复杂度都是恒定的。
辅助学习:环境可能包含丰富的可能训练信号,有助于加速实现累积奖励最大化的主要目标,例如像素变化可能暗示重要事件,辅助奖励任务有助于实现奖励状态的良好表示。当外在的奖励信号很少被观察到时,这有很大的帮助。无监督强化学习和辅助学习(UNsupervised REinforcement and Auxiliary Learning, UNREAL)可以提高学习效率,除了通常的累积奖励外,还通过最大化伪奖励函数来提高学习效率,同时共享一个共同的表征。UNREAL由RNN-LSTM基代理、像素控制、奖励预测和值函数反馈组成。基本智能体通过异步动作者-评判者算法 (Asynchronous Actor Critic, A3C) 策略训练,观察、奖励和行动的经验被储存在应答缓冲区中,供辅助任务使用。辅助策略使用基本的卷积神经网络(Convolutional Neural Network, CNN)和LSTM,加上一个反卷积网络,使输入图像不同区域的像素强度变化最大化。奖励预测模块通过观察后三帧预测下一帧的短期外部奖励,以解决奖励稀疏的问题。值函数反馈进一步训练了值函数。
生成对抗网络:同时训练两个模型,通过对抗过程估计生成模型,生成模型G用于捕获数据分布,判别模型D用于估计来自训练数据而非生成模型G的样本的概率。通过用多层感知器对G和D进行建模,当G和D的训练数据集有足够的容量时,生成对抗网可以恢复数据生成分布,并通过小批量随机梯度下降提供了一种带反向传播的G和D训练算法。
2.3迁移学习机制
传统的机器学习特别是深度学习只有在特定领域的训练集数据和测试集数据都来自同一个特征空间和统一分布的时候,学习和应用的效果比较好。因此当应用领域变化和数据集发生变化时,都要重新训练模型。
迁移学习是指将从不同领域学到的知识进行迁移,新的应用领域可能具有与原来学习和训练的数据集不同的特征空间和/或不同的数据分布。迁移学习包括归纳迁移学习、转化迁移学习及无监督迁移学习。归纳迁移学习包括自学学习和多任务学习;而转化迁移学习包括领域适应和样本选择偏置假设/协方差偏移。
目前提出的两个智能体学习多种技能的多技能问题,定义了用于映射状态和投射技能执行的公共表示,并设计了两个智能体最大限度地转移信息特征空间以转移新技能的算法,该算法采用相似性损失度量法,自动编码,强化学习。通过用两个模拟机器人操作任务已经验证了这种方法。
2.4多智能体强化学习机制
多智能体强化学习是多智能体系统(Multi-Agent)与强化学习系统的集成,因此处于博弈论与强化学习/人工智能社区的交叉点。除了强化学习中的收敛性和维数爆炸等问题外,还有诸如多重均衡的新问题,甚至还有诸如多智能体学习的问题是什么,收敛到均衡点是否是一个合适的目标等基本问题。因此,多智能体学习在技术和概念上都是一个挑战,需要清楚地理解待解决的问题、评估标准和连贯的研究过程。
2.5分层强化学习机制
分层强化学习是一种在多个层次上通过时空抽象来学习、规划和表示知识的方法。分层强化学习也是一种解决稀疏报酬和长期视野问题的方法。专注写入策略架构 (STRategic Attentive Writer, STRAW)是一种深度递归神经网络架构,用于根据环境观察结果,以端到端的方式学习高层时间抽象宏观行为。宏动作是指发生的一系列动作。STRAW建立了一个多步骤的动作计划,根据观察到的奖励定期更新,并通过遵循计划而无需重新计划来学习执行计划的时间。STRAW学会了从数据中自动发现宏动作,这与以前工作中的手动方法不同。
分层DQN(hierarchical-DQN, h-DQN),通过分层组织目标驱动的内在激励深度强化学习模块在不同的时间尺度上工作。h-DQN集成了一个顶层的动作值函数和一个较低层次的动作值函数;前者学习一个超过内在子目标或选项的策略;后者学习一个超过原始动作的策略来满足给定的子目标。
使用带有信息论正则化器的随机神经网络对大跨度的技能进行预训练,然后在这些技能的基础上,为下阶段任务训练高级策略。预训练基于智能体的奖励信号,这是一种探索智能体自身能力的内在动机,其设计要求对下阶段任务领域知识最少。这种方法将层次分析法与内在动机相结合,并且预训练遵循无监督的方式。此外,还可以采用终身学习的分層深层RL网络架构,进行学习可重用的技能或子目标,将学习的知识迁移到新的任务中。
2.6习得学习机制
习得学习也被称为元学习,是学习如何快速适应新的任务。它涉及迁移学习、多任务学习、表征学习和一次/少量/零次(映射)学习。也可以将超参数学习和神经结构设计看作是习得学习,它是实现强人工智能的核心,也是深度强化学习的发展方向。
一次/少量/零次(映射)学习是指在深度学习的训练集中,每个类别都只有一个或几个的少量样本、或者没有某个类别的样本,但仍然可以通过习得学习及迁移学习等得到一个映射学习模型,实现对各个类别都有较好的泛化效果。
3.深度强化学习的改进技术
针对第一代深度强化学习模型收敛缓慢的痛点问题及归因,可以采用以下两种具体技术,即情景深度强化学习及元学习技术,更进一步,可以将这两种技术有机融合,构成情景元深度强化学习技术。 3.1情景深度强化学习
考虑到参数增量调整是深度强化学习中收敛速度慢的重要原因,那么一个更快学习的方法则是避免这种增量更新。根据以上的分析,如果单纯地提高梯度下降优化的参数增量会导致灾难性干扰致使神经网络无法收敛不稳定的问题。然而,实现此目标可以采用另一种方法,即明确记录过去的事件,并直接将其作为制定新决策的参考依据。这一概念被称为情景深度强化学习,与机器学习中的“非参数”方法相似,类似于心理学中的“实例学习”或“范例学习”理论,通过情景记忆快速学习。当遇到新情况时,必须决定采取什么行动,程序是将当前情况的内部表示与过去情况的存储表示进行比较。然后基于与现在最相似的过去情况的结果,选择与最大值函数相关联的行动。当用多层神经网络计算内部状态表示时,这种算法称为“情景深度强化学习”。
在情景深度强化学习中,与标准的增量方法不同,通过每个经验事件获得的信息可以立即用于指导行为。然而,尽管早期的深度强化学习方法显得很“慢”,但是情景性的深度强化学习能够“快”起来,但是这有一个转折点:情节性深度强化学习的快速学习严重依赖于缓慢的增量学习。这是对连接权重的逐渐学习,允许系统形成有用的内部表示或每个新观察的嵌入。这些表示的格式本身是通过经验学习的,使用与标准深度强化学习的主干相同的增量参数更新。最终,情景深度强化学习的速度还是由这种较慢的学习形式实现的。即情景深度强化学习的快速学习是通过缓慢的深度强化学习来实现的。
这种“快速学习对慢学习的依赖”并不是巧合。正如将在下面讨论的情况,这是一个基本原则,不但适用于心理学和神经科学,同样也适用人工智能领域。
3.2元学习:通过学习来加速深度强化学习
如前所述,除了增量更新之外,标准深度强化学习过程收敛缓慢的第二个主要原因是弱偏置假设。正如偏置假设与方差权衡的概念所规定的那样,快速学习要求学习者对其将要面对的模式结构提出一套合理规模的假设。偏置假设越强,学习的速度就越快。然而,正如前面所预示的问题:一个较强的假设集只有在包含正确假设的情况下才能加快学习速度。虽然强烈的归纳偏置假设可以加速学习,但只有当学习者采用的特定偏置假设恰好与要学习的材料相匹配时,才可以实现这种效果。因此,一个新的学习问题又出现了:学习者如何知道应该采用什么样的偏置假设呢?
对这个问题的很自然的回答就是借鉴过去的经验。诚然,在日常生活中也经常发生这种情形。例如,考虑学习使用新智能手机的日常任务。在这种情况下,人们过去使用智能手机和其他相关设备的经验将告诉他们关于新手机应该如何工作的假设,并将指导其对手机操作的探索。这些最初的假设与偏置假设-方差权衡中的“偏置假设”相对应,这有助于快速学习如何使用新手机。如果没有这些假设,就必须考虑更大范围的学习偏置假設。
利用过去的经验加速新的学习在机器学习中被称为习得学习。其实这一理念源于心理学,在心理学中它被称为“元学习”。元学习可以在深度强化学习中加速学习的过程。此时,用一系列相关的强化学习任务对一个递归神经网络RNN进行训练,RNN网络中的权重调整得非常慢,因此RNN网络可以吸收任务之间的共同点,但无法快速更改以支持任何单个任务的解决方案。RNN递归神经网络实现了各自独立的强化学习算法,该算法基于过去任务积累的知识,能够快速解决每个新任务。
与情景深度强化学习一样,元学习又涉及到快速和缓慢学习之间的密切联系。递归网络中的连接在任务间缓慢更新,允许跨任务的一般原则“嵌入”递归网络的动态。由此产生的RNN神经网络实现了一种新的学习算法,可以快速解决新问题,因为慢学习的潜在过程赋予了其有用的归纳偏置假设。这里再次看到,快速学习源于慢学习,并由缓慢学习促成。
3.3情景元深度强化学习
以上实现的两种技术并不相互排斥,这非常重要。事实上,可以整合元学习和情景控制的方法,充分利用它们的互补优势。在情景元深度强化学习模式中,在递归神经网络RNN中进行元学习。同时,在RNN之上叠加一个情景记忆系统,其作用是恢复重复网络中的活动模式。与在情景深度强化学习中一样,情景记忆对一组过去的事件进行编目,这些事件可以基于当前上下文进行查询。然而,不是将上下文与行动值估计联系起来,而是将上下文与递归网络内部或隐藏单元中存储的活动模式联系起来。这些模式很重要,因为通过元深度强化学习,总结了智能体从与单个任务的交互中学到的模式。在情景元深度强化学习中,当智能体遇到与过去遇到的情况相似的情况时,它将恢复先前遇到的内部设置,允许先前获得的信息立即影响当前策略。实际上,场景内存允许系统识别以前遇到的任务,检索存储的解决方案加以应用。
通过模拟工作和导航任务,显示出情景元深度强化学习,学会了强烈的归纳偏置假设,使其能够快速解决新任务。更重要的是,当遇到一个以前遇到的任务时,情景元深度强化学习会立即检索并重新测试以前发现的解决方案。当遇到新任务时,情景元深度强化学习系统受益于元深度强化学习的快速性;而在第二次及以后的遭遇中,系统又得益于情景控制所赋予的一次性学习能力。
4.结语
深度强化学习(DRL)方法的突破推动了人工智能领域令人可喜的进步。深度强化学习的6种重要的学习机制以及2项改进技术,克服了模型收敛速度慢和样本效率低下的痛点问题,使深度强化学习模式在众多的领域能够卓有成效的应用。在教育领域,深度强化学习在基于教育大数据的教学自动评估中发挥重要和不可替代的作用。
参考文献
[1] BOTVINICK M, RITTER S, WANG J X, et al. Reinforcement Learning, Fast and Slow [J]. Trends in Cognitive Sciences, 2019, 23(5): 408-22. [2]万里鹏, 兰旭光, 张翰博, et al. 深度强化学习理论及其应用综述 [J]. 模式识别与人工智能, 2019, 32(01): 67-81.
[3] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature, 2017, 550(7676): 354-+.
[4] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.
[5] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38.
[6] 汪晨,曾凡玉,郭九霞.記忆增强型深度强化学习研究综述[J].小型微型计算机系统, 2021, 42(03):454-461.
[7] 赵星宇,丁世飞. 深度强化学习研究综述 [J]. 计算机科学, 2018, 45(07): 1-6.
[8] 秦智慧,李宁,刘晓彤等.无模型强化学习研究综述[J].计算机科学, 2021, 48(03):180-187.
[9] 孙路明,张少敏,姬涛等. 人工智能赋能的数据管理技术研究 [J]. 软件学报, 2020, 31(03): 600-19.
[10] 唐浪,李慧霞,颜晨倩,郑侠武,纪荣嵘.深度神经网络结构搜索综述[J].中国图象图形学报, 2021, 26(02):245-264.
基金项目:①广东省教育厅2019年度普通高校特色创新类项目(2019GKTSCX152); ②广东省教育厅2018年度重点平台及科研项目特色创新项目(2018GWTSCX030);③广东省教育厅2018年度省高等职业教育教学质量与教学改革工程教育教学改革研究与实践项目(GDJG2019309);④广州涉外经济职业技术学院2020科研项目重点项目(2020KY02);5.广州涉外经济职业技术学院2020年校级质量工程重点项目(SWZL202001)。
作者简介:吴英萍(1982.10-),讲师,学士,广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术,人工智能;
*通讯作者:耿江涛(1965.12-),教授,高级工程师,华南师范大学博士生,广州涉外经济职业技术学院教育研究院教授。研究方向为大数据应用技术,人工智能,高职教育管理与国际化。
熊晓波(1970.06-),教授,硕士,广州涉外经济职业技术学院副校长兼信息工程学院院长。研究方向为计算机科学与技术,高职教育管理。
余雪莲(1993.06-),助教,学士,广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术,人工智能。
1.广州涉外经济职业技术学院 广东广州 510540
2. 华南师范大学 广东广州 510631