并行强化学习研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:hyx19841101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。然而目前的强化学习算法在可扩展性方面都有所欠缺,在学习任务的状态空间很大或状态空间连续时,开销非常巨大,甚至不能直接应用。同时,在实际应用中,收敛速度慢是强化学习的另一个主要不足。针对强化学习方法在大状态空间或连续状态空间的学习问题中存在的“维数灾”及收敛速度慢等普遍存在且严重的问题,本文从并行化强化学习过程的角度出发,提出了3种并行强化学习方法,主要研究内容概括如下:(1)提出了一种基于状态空间分解和智能调度的并行强化学习方法。这种方法首先将规模较大的学习问题分解成小的子问题,再对每个子问题进行并行学习。在学习过程中,通过一种自适应的智能调度算法选择收益较大的子问题优先学习。在算法收敛之后,通过合并各个子问题的结果得到整个学习问题的期望结果。本文还从理论上证明了基于状态空间分解和多Agent并行学习的Q学习算法的收敛性。(2)为了在具有延时回报特点的在线学习任务中提高时间信度的分配效率和使用资格迹的强化学习算法的收敛速度,提出了一种并行强化学习框架和一些可行的优化方法。该学习框架充分利用了资格迹算法内在的并行性,使用多个计算节点分摊值函数表和资格迹表的更新工作。(3)针对E3算法的理论收敛时间界限太大,在实际的大状态空间学习问题中学习效率较低的问题,提出了一种基于多Agent并行采样和学习经验复用的改进E3算法。所提算法对原始算法的改进体现在两个方面:在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。
其他文献
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,
数字多媒体数据极易在网络上复制、伪造、传播,数据的版权验证保护问题随之凸显出来。数字水印技术因成为解决这一问题的有效方案而受到广泛关注。但是目前大多数水印算法是嵌
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓
随着多模态融合识别技术的飞速发展,唇读技术作为模式识别领域中的热点问题得以关注。唇读技术与指纹识别、虹膜识别、视网膜识别等相比,具有更加直接、便捷、适时的特点。唇读
近年来,skyline查询在多目标决策、数据挖掘、数据库可视化等方面得到广泛应用。然而在高维空间环境下,skyline查询因为返回的结果集过大而不能提供有用的信息。因此,学术界提出
关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。   针对如