多智能体深度强化学习方法及应用研究

来源 :西安电子科技大学 | 被引量 : 17次 | 上传用户:panyh921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,最亟待解决的问题是如何在海量数据中获取最需要的信息。这主要有两方面的困难,一是海量数据难以处理,二是人类社会是一个多智能体系统,智能体之间存在很大的差异性,难以对“最需要”这一模糊概念下统一的准确定义。因此,本论文研究多智能体深度强化学习方法,希望能学习出用户模式,在数据中挖掘到每个用户最需要的信息,最大化用户体验,进而可以根据用户模式实现定制化推荐系统、自动控制、智能资源动态分配以及智能导航等应用场景。一方面,深度学习能够利用深度神经网络,在复杂的数据中高效的提取特征,从而使得计算设备可以对抽象概念进行感知,因此是处理海量数据的有效手段。另一方面,强化学习通过奖励的设置可以对智能体进行定制化学习。随之而来的深度强化学习,可以利用深度神经网络直接从数据中提取特征,并最终学习到智能体的最优策略,这种强大的特征提取方法是传统强化学习方法所不具备的。但是多智能体深度强化学习却面临着更多的挑战。在多智能体系统中,智能体在决策时不仅需要考虑环境因素,更要考虑其他智能体的决策。此外,由于智能体存在的差异性,无法统一对其收益进行描述,难以学习和预测其行为。因此需要引入用户模式,用以描述智能体的差异性,从而定制的满足每个智能体的收益最大化。本论文主要从以下五个方面对多智能体深度强化学习及其应用进行了研究。第一,提出了集中式多智能体深度强化学习,从而满足大数据背景下的定制化数据挖掘。现常见的数据挖掘方法都是无差别的,无法根据用户偏好挖掘出用户最需要的数据。因此本论文考虑采用多智能体深度强化学习方法让每个用户直接从原始数据中提取最需要的信息。但是由于深度学习框架带来的高额计算成本,每个用户都采取深度学习方法在现阶段并不实际。因此,本论文考虑集中式多智能体深度强化学习,将深度学习部分集中用以提取数据的共性特征,之后再采用多智能体强化学习方法对数据特征进行定制化学习,从而获取每个用户最需要的信息,最大化用户体验。第二,在多智能体系统下,提出了用户模式的生成式模型,从而定义出智能体之间的差异性。传统强化学习的学习过程实质上是个判别式模型。而本论文提出的生成式用户模式为一组无法直接获取的概率密度分布,用户通过对这个概率进行采样,估计出用户模式,并利用这个估计值作为策略函数去决定行为。实验结果表明,当训练收敛时,用户模式的估计值与真实值相近。第三,通过普适社交网络,提出基于强化学习的同类智能体社交行为学习方法。在这个多智能体系统中,不可统一的定义用户的竞争或合作关系,而用户的关系实际上取决于他们自身的模式。因此首先对该环境下的用户模式进行了定义,之后提出QLA和VLA算法对该环境下的用户模式进行学习。在根据用户模式确定用户角色后,本文重点研究竞争关系的智能体。本论文提出多智能体版本的囚徒窘境和古诺模型,并利用强化学习去解决这种竞争关系的博弈,以此为例研究了智能体的社交行为。第四,通过认知无线网络,提出异类智能体的交互行为学习与动态资源分配方法。异类智能体的策略集合完全不同,因此需要分别定义其用户模式。最典型的异类智能体环境就是通信系统中授权用户与认知用户。这里考虑单授权用户-多认知用户的场景,有限的频谱资源由授权用户分配给多个认知用户。通过对该场景的分析,将此场景建模为垄断型市场。经过对用户行为的分析,本论文提出二阶概率Q学习和双向强化学习方法,分别学习认知用户和授权用户的策略函数,使得二者在追求个体利益最优的同时达到均衡。第五,研究多智能体深度强化学习在车联网环境下的应用。车联网是一个复杂的多智能体场景。本论文提出以车辆为基本单元的车辆种群,并利用基于个体建模方法以及深度强化学习方法,实现定制化数据挖掘,使得每个用户可以获取他最需要的数据,从而最大化每个用户的体验。此外,当多智能体设备联动时,也可以满足更公共的应用。这里本论文提出基于数据融合的方法进行车辆追踪,以及基于强化学习和faster R-CNN算法的定制化车辆追踪方法,有效提高了追踪方法的灵活性。
其他文献
目的探讨口服金双歧对直肠癌肠造口还纳术后腹泻患者的影响。方法将100例行直肠癌肠造口还纳术后发生腹泻的患者按手术先后顺序随机分为对照组和实验组,各50例。对照组采用外
随着经济的发展、企业经营环境的日趋复杂和市场竞争的白热化,企业为了在激烈的环境中存活下来,存在运用关联交易等方式进行盈余管理的行为,进而达到美化报表的目的。近年来,
矿产资源密集型区域经济发展与人口增长、资源消耗、环境污染和体制滞后之间的矛盾日益凸显.如何协调他们之间的关系成为区域经济可持续发展的当务之急.对区域内各子系统之间
矿用绞车在井下主要承担物料搬运的作用,由于井下工况复杂,绞车经常因为超载而出现事故,不仅耽误生产,更有可能造成人员的伤亡。而现有安装在钢丝绳上的超载检测装置都不易拆装和
选址问题的研究中,大多考虑的是理论距离(例如欧式距离等);但在实际问题中,真实的公路运输距离和理论距离有较大差异,并且修建公路的成本较高.在尽量利用当前的公路交通网络
政治运行过程由政治决策、政治执行、政治协调、政治参与、政治监督等环节组成,可能出现良性、中性或恶性三种不同的结果状态。政治良性运行即政治的协调稳定发展。实现政治
目的探讨围手术期护理在同期双侧人工全膝关节置换患者中应用效果。方法回顾2009年1月~2012年12月对32例行同期双侧人工全膝关节置换术患者围手术期护理内容进行总结评分(HSS
圆瑛是中国近现代佛教界的著名高僧,在义理与践行上为振兴中国佛教事业做出了卓越的贡献。圆瑛本着佛陀入世的精神,在佛教义理上精研经义,在践行上积极弘法传道,他在讲经弘法的过程中,注重对大乘佛法的弘扬和发展。在对《大乘起信论》的讲解中,圆瑛以自己的佛学思想为基础,引经据典,吸收各家理论,尤其是天台、华严的佛学思想,形成了具有圆融特点的真如思想。圆瑛真如思想的独特性主要表现在四个方面:真如思想内涵、真如思
目的评价肱骨近端锁定钢板内固定治疗老年肱骨近端骨折的疗效。方法将2011年6月-2013年6月我院收治的77例老年肱骨近端骨折患者按不同手术治疗方法分为试验组(40例,行肱骨近端
本文首先从齿条加工齿轮的啮合原理出发,推导了渐开线斜齿圆柱齿轮的精确齿廓曲线,进而沿着螺旋线扫描得到渐开线斜齿圆柱齿轮模型,从而实现斜齿轮参数化建模。以UG6.0为建模