论文部分内容阅读
在大数据时代,最亟待解决的问题是如何在海量数据中获取最需要的信息。这主要有两方面的困难,一是海量数据难以处理,二是人类社会是一个多智能体系统,智能体之间存在很大的差异性,难以对“最需要”这一模糊概念下统一的准确定义。因此,本论文研究多智能体深度强化学习方法,希望能学习出用户模式,在数据中挖掘到每个用户最需要的信息,最大化用户体验,进而可以根据用户模式实现定制化推荐系统、自动控制、智能资源动态分配以及智能导航等应用场景。一方面,深度学习能够利用深度神经网络,在复杂的数据中高效的提取特征,从而使得计算设备可以对抽象概念进行感知,因此是处理海量数据的有效手段。另一方面,强化学习通过奖励的设置可以对智能体进行定制化学习。随之而来的深度强化学习,可以利用深度神经网络直接从数据中提取特征,并最终学习到智能体的最优策略,这种强大的特征提取方法是传统强化学习方法所不具备的。但是多智能体深度强化学习却面临着更多的挑战。在多智能体系统中,智能体在决策时不仅需要考虑环境因素,更要考虑其他智能体的决策。此外,由于智能体存在的差异性,无法统一对其收益进行描述,难以学习和预测其行为。因此需要引入用户模式,用以描述智能体的差异性,从而定制的满足每个智能体的收益最大化。本论文主要从以下五个方面对多智能体深度强化学习及其应用进行了研究。第一,提出了集中式多智能体深度强化学习,从而满足大数据背景下的定制化数据挖掘。现常见的数据挖掘方法都是无差别的,无法根据用户偏好挖掘出用户最需要的数据。因此本论文考虑采用多智能体深度强化学习方法让每个用户直接从原始数据中提取最需要的信息。但是由于深度学习框架带来的高额计算成本,每个用户都采取深度学习方法在现阶段并不实际。因此,本论文考虑集中式多智能体深度强化学习,将深度学习部分集中用以提取数据的共性特征,之后再采用多智能体强化学习方法对数据特征进行定制化学习,从而获取每个用户最需要的信息,最大化用户体验。第二,在多智能体系统下,提出了用户模式的生成式模型,从而定义出智能体之间的差异性。传统强化学习的学习过程实质上是个判别式模型。而本论文提出的生成式用户模式为一组无法直接获取的概率密度分布,用户通过对这个概率进行采样,估计出用户模式,并利用这个估计值作为策略函数去决定行为。实验结果表明,当训练收敛时,用户模式的估计值与真实值相近。第三,通过普适社交网络,提出基于强化学习的同类智能体社交行为学习方法。在这个多智能体系统中,不可统一的定义用户的竞争或合作关系,而用户的关系实际上取决于他们自身的模式。因此首先对该环境下的用户模式进行了定义,之后提出QLA和VLA算法对该环境下的用户模式进行学习。在根据用户模式确定用户角色后,本文重点研究竞争关系的智能体。本论文提出多智能体版本的囚徒窘境和古诺模型,并利用强化学习去解决这种竞争关系的博弈,以此为例研究了智能体的社交行为。第四,通过认知无线网络,提出异类智能体的交互行为学习与动态资源分配方法。异类智能体的策略集合完全不同,因此需要分别定义其用户模式。最典型的异类智能体环境就是通信系统中授权用户与认知用户。这里考虑单授权用户-多认知用户的场景,有限的频谱资源由授权用户分配给多个认知用户。通过对该场景的分析,将此场景建模为垄断型市场。经过对用户行为的分析,本论文提出二阶概率Q学习和双向强化学习方法,分别学习认知用户和授权用户的策略函数,使得二者在追求个体利益最优的同时达到均衡。第五,研究多智能体深度强化学习在车联网环境下的应用。车联网是一个复杂的多智能体场景。本论文提出以车辆为基本单元的车辆种群,并利用基于个体建模方法以及深度强化学习方法,实现定制化数据挖掘,使得每个用户可以获取他最需要的数据,从而最大化每个用户的体验。此外,当多智能体设备联动时,也可以满足更公共的应用。这里本论文提出基于数据融合的方法进行车辆追踪,以及基于强化学习和faster R-CNN算法的定制化车辆追踪方法,有效提高了追踪方法的灵活性。