论文部分内容阅读
随着深度强化学习技术在视频游戏领域的不断发展,越来越多难度各异的视频游戏被深度强化学习智能体所掌握,这些智能体在某些视频游戏中甚至可以比肩人类职业游戏玩家。相较于视频游戏,基于文本语言的文本类游戏因其特殊的游戏方式和市场流行度较低等因素,使得关于文本游戏领域的研究相对于视频游戏领域要少一些。基于上述背景,本文将研究目光投向了流行度较低的文本游戏。在之前关于文本游戏的相关研究中,大多通过修改深度强化学习智能体模型的方式来尝试提高智能体在文本游戏环境下的游戏表现,但是这些智能体模型大多表征能力有限,而且这些研究大多忽略了文本游戏环境本身的一些特性,使得智能体模型在探索与学习过程中的视野受到限制。本文围绕现有研究工作中存在的智能体模型表征能力有限以及智能体视野受限等问题展开研究,主要包括以下三个方面:
首先,针对之前研究中存在的智能体表征能力有限的问题,本文提出了DSRRLM方法。该方法通过在智能体模型设计的过程中引入深度后继表示技术的方式来提升智能体模型的表征能力,并在模型的预测阶段使用了交互函数来计算Q值。同时,本文还使用了词嵌入模型GloVe来对词向量进行预训练,GloVe模型可以使得文本在向量化过程中尽可能多的保留语义信息。在深度强化学习方法的经验回放阶段,本文采用了优先经验回放算法来加快模型的收敛速度。为了验证本文基于深度后继表示技术设计的强化学习方法在文本游戏任务中的可行性,本文通过实验将该方法与之前的多种方法进行了比较。实验结果表明,在相同的实验设置和对比标准下,本文设计的基于深度后继表示的文本游戏智能体模型要优于其它对比模型。
其次,考虑到之前的研究大多忽略了文本游戏本身的游戏特性,本文提出了GNNRLM方法。该方法在DSRRLM方法的基础上进一步融合了上下文信息,这种融入上下文信息的方式可以有效扩展智能体的视野,使得智能体能够对其当前所处的游戏状态有一个更为清晰和准确的判断。在上下文信息特征的提取方面,本文通过将上下文信息构建为图结构数据的方式,并分别使用了图卷积神经网络和图注意力网络两种网络结构来对上下文信息进行特征提取。为验证本文所设计模型的有效性以及探究上下文信息对于文本游戏智能体所起到的增益效果,本文将原始不采用上下文信息的模型作为基线模型,并将其与本文设计的GCNAM模型与GATAM模型进行了比较。实验结果表明,本文设计的两种模型都可以有效应用于文本游戏环境,但是两者所能达到的游戏技术水平各不相同,同时也证明,本文使用的上下文信息确实可以对文本游戏智能体起到的增益效果。
最后,本文依旧是围绕上下文信息展开进一步的研究。为了充分发挥上下文信息的增益作用,本文提出了TSNRLM方法。该方法将上下文信息构建为时间序列数据,并使用了多种具有在时间序列数据上建模能力的时序网络结构来提取上下文信息的特征。本文分别基于CNN(一维)、RNN(GRU、LSTM)、TCN结构设计了4种智能体模型,本文通过实验充分探究了被构建为时间序列数据的上下文信息的增益效果,同时也充分探究了哪种时序网络更适合被应用到文本游戏智能体的模型设计当中。实验结果表明,通过将上下文信息构建为时间序列数据要比构建为图结构数据更加有效,同时也表明在本文设计的4种基于时序网络的智能体模型当中,基于一维卷积的智能体模型的游戏表现是最为优越的一个。
首先,针对之前研究中存在的智能体表征能力有限的问题,本文提出了DSRRLM方法。该方法通过在智能体模型设计的过程中引入深度后继表示技术的方式来提升智能体模型的表征能力,并在模型的预测阶段使用了交互函数来计算Q值。同时,本文还使用了词嵌入模型GloVe来对词向量进行预训练,GloVe模型可以使得文本在向量化过程中尽可能多的保留语义信息。在深度强化学习方法的经验回放阶段,本文采用了优先经验回放算法来加快模型的收敛速度。为了验证本文基于深度后继表示技术设计的强化学习方法在文本游戏任务中的可行性,本文通过实验将该方法与之前的多种方法进行了比较。实验结果表明,在相同的实验设置和对比标准下,本文设计的基于深度后继表示的文本游戏智能体模型要优于其它对比模型。
其次,考虑到之前的研究大多忽略了文本游戏本身的游戏特性,本文提出了GNNRLM方法。该方法在DSRRLM方法的基础上进一步融合了上下文信息,这种融入上下文信息的方式可以有效扩展智能体的视野,使得智能体能够对其当前所处的游戏状态有一个更为清晰和准确的判断。在上下文信息特征的提取方面,本文通过将上下文信息构建为图结构数据的方式,并分别使用了图卷积神经网络和图注意力网络两种网络结构来对上下文信息进行特征提取。为验证本文所设计模型的有效性以及探究上下文信息对于文本游戏智能体所起到的增益效果,本文将原始不采用上下文信息的模型作为基线模型,并将其与本文设计的GCNAM模型与GATAM模型进行了比较。实验结果表明,本文设计的两种模型都可以有效应用于文本游戏环境,但是两者所能达到的游戏技术水平各不相同,同时也证明,本文使用的上下文信息确实可以对文本游戏智能体起到的增益效果。
最后,本文依旧是围绕上下文信息展开进一步的研究。为了充分发挥上下文信息的增益作用,本文提出了TSNRLM方法。该方法将上下文信息构建为时间序列数据,并使用了多种具有在时间序列数据上建模能力的时序网络结构来提取上下文信息的特征。本文分别基于CNN(一维)、RNN(GRU、LSTM)、TCN结构设计了4种智能体模型,本文通过实验充分探究了被构建为时间序列数据的上下文信息的增益效果,同时也充分探究了哪种时序网络更适合被应用到文本游戏智能体的模型设计当中。实验结果表明,通过将上下文信息构建为时间序列数据要比构建为图结构数据更加有效,同时也表明在本文设计的4种基于时序网络的智能体模型当中,基于一维卷积的智能体模型的游戏表现是最为优越的一个。