面向文本游戏的深度强化学习方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:China_BILLGATES
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度强化学习技术在视频游戏领域的不断发展,越来越多难度各异的视频游戏被深度强化学习智能体所掌握,这些智能体在某些视频游戏中甚至可以比肩人类职业游戏玩家。相较于视频游戏,基于文本语言的文本类游戏因其特殊的游戏方式和市场流行度较低等因素,使得关于文本游戏领域的研究相对于视频游戏领域要少一些。基于上述背景,本文将研究目光投向了流行度较低的文本游戏。在之前关于文本游戏的相关研究中,大多通过修改深度强化学习智能体模型的方式来尝试提高智能体在文本游戏环境下的游戏表现,但是这些智能体模型大多表征能力有限,而且这些研究大多忽略了文本游戏环境本身的一些特性,使得智能体模型在探索与学习过程中的视野受到限制。本文围绕现有研究工作中存在的智能体模型表征能力有限以及智能体视野受限等问题展开研究,主要包括以下三个方面:
  首先,针对之前研究中存在的智能体表征能力有限的问题,本文提出了DSRRLM方法。该方法通过在智能体模型设计的过程中引入深度后继表示技术的方式来提升智能体模型的表征能力,并在模型的预测阶段使用了交互函数来计算Q值。同时,本文还使用了词嵌入模型GloVe来对词向量进行预训练,GloVe模型可以使得文本在向量化过程中尽可能多的保留语义信息。在深度强化学习方法的经验回放阶段,本文采用了优先经验回放算法来加快模型的收敛速度。为了验证本文基于深度后继表示技术设计的强化学习方法在文本游戏任务中的可行性,本文通过实验将该方法与之前的多种方法进行了比较。实验结果表明,在相同的实验设置和对比标准下,本文设计的基于深度后继表示的文本游戏智能体模型要优于其它对比模型。
  其次,考虑到之前的研究大多忽略了文本游戏本身的游戏特性,本文提出了GNNRLM方法。该方法在DSRRLM方法的基础上进一步融合了上下文信息,这种融入上下文信息的方式可以有效扩展智能体的视野,使得智能体能够对其当前所处的游戏状态有一个更为清晰和准确的判断。在上下文信息特征的提取方面,本文通过将上下文信息构建为图结构数据的方式,并分别使用了图卷积神经网络和图注意力网络两种网络结构来对上下文信息进行特征提取。为验证本文所设计模型的有效性以及探究上下文信息对于文本游戏智能体所起到的增益效果,本文将原始不采用上下文信息的模型作为基线模型,并将其与本文设计的GCNAM模型与GATAM模型进行了比较。实验结果表明,本文设计的两种模型都可以有效应用于文本游戏环境,但是两者所能达到的游戏技术水平各不相同,同时也证明,本文使用的上下文信息确实可以对文本游戏智能体起到的增益效果。
  最后,本文依旧是围绕上下文信息展开进一步的研究。为了充分发挥上下文信息的增益作用,本文提出了TSNRLM方法。该方法将上下文信息构建为时间序列数据,并使用了多种具有在时间序列数据上建模能力的时序网络结构来提取上下文信息的特征。本文分别基于CNN(一维)、RNN(GRU、LSTM)、TCN结构设计了4种智能体模型,本文通过实验充分探究了被构建为时间序列数据的上下文信息的增益效果,同时也充分探究了哪种时序网络更适合被应用到文本游戏智能体的模型设计当中。实验结果表明,通过将上下文信息构建为时间序列数据要比构建为图结构数据更加有效,同时也表明在本文设计的4种基于时序网络的智能体模型当中,基于一维卷积的智能体模型的游戏表现是最为优越的一个。
其他文献
随着社会的进步,移动互联网已经涉及到各行各业,移动电商和基于位置的社交网络(LBSN,Location-Based Social Networks)也得到了迅猛的发展,如淘宝,京东,Facebook,Twitter,Foursquare,Gowalla,Yelp等。与此同时,诸如信息爆炸问题也日益受到人们的关注,如何从逐日爆炸性增长的互联网海量数据中提取出对用户有实际意义的信息,同时尽可能地过滤不
学位
由于户外环境的复杂多变,如雨雾天气、低光照、噪声等,图像采集设备收集到的图像常会受到不同程度的损坏。图像的退化不仅会降低可视化效果,而且会影响下游的目标识别等高级视觉任务。低质量图像恢复旨在从退化图像中恢复高质量图像信号,传统的图像恢复方法主要利用局部或非局部的图像特征,缺乏深层次的语义信息,限制了在复杂场景中的特征表示能力。近年来,基于卷积神经网络(CNN)的方法能够同时提取浅层和深层特征,在图
电子病历(Electronic Medical Record,EMR)是使用计算机记录病人治疗情况的一种形式,它记录了病人所有的诊断治疗信息,比如现病史、既往史等,这些信息具有极高的医学价值。随着人工智能、自然语言处理技术的成熟落地和成功应用,各个领域开始借助这些技术在不断的更新和进步,如,在医学领域,使用EMR辅助医生决策,提高疾病诊断性能已经成为了至关重要的任务。但是,之前的工作仅仅使用卷积神
学位
随着计算机技术的发展,以深度学习为代表的方法为医疗图像的研究与发展开拓了新的方向。由于视网膜血管与糖尿病、高血压、心脑血管等疾病的重要联系,研究人员对自动分割视网膜血管这一医学任务也给予重要关注。在目前大多数基于深度学习的视网膜血管分割方法中,以编码-解码结构的分割模型融合了视网膜图像的全局和局部信息,在分割性能上取得了突破性的发展。但由于视网膜血管复杂的形态变化、病变区域的影响、毛细血管的分支多
学位
在过去几年里,尽管立场检测研究取得了很大的进展,但是现有的立场检测工作大多只关注训练集和测试集分布一致的情况,却忽略了社交平台话题的特点,即较快的更新速度。处理新兴的陌生话题领域也因此变得极为重要。为此,本文使用了深度神经网络作为基础模型来探索立场检测任务处理未知话题的方法。具体地,本文将从以下三个方面展开探索:(1)基于领域泛化的未知目标立场检测方法:本文将未知目标立场检测任务看作分类任务,首先
学位
近年来计算机断层扫描技术(CT)被广泛用于临床诊断,由于CT会产生较高的辐射,危害人体健康,医学界通常采用低剂量CT扫描技术(LDCT)来获取CT图像。尽管LDCT能够有效降低辐射量,但是LDCT图像容易引入更多噪声和伪影,最终可能影响放射科医生的诊断。由于CT原始数据难以获取,大量研究聚焦于直接对CT图像进行后处理去噪。现有CT图像去噪算法主要针对特定剂量的CT图像,且存在去噪后图像细节丢失、图
学位
随着网络优化,普适计算和物联网的快速发展,室内定位技术在消防救灾、地下停车寻车、商场购物等领域的应用越来越多。近年来,机器学习技术在诸多领域得到了广泛的应用并取得了很好的效果,故而越来越多的研究者开始采用机器学习的方法进行室内定位的研究,这推动了机器学习的室内定位方面的发展。本文研究了基于机器学习的室内定位技术,针对现有研究存在的问题,提出了三个有效的室内跟踪定位算法。  首先,为了提高定位的准确
学位
药物往往通过靶向相应的蛋白来发挥作用。因此,揭示药物和靶标的关系在药物开发中起着至关重要的作用。近年来,药物-靶标蛋白质相互作用(DTIs)的计算预测对于药物发现或药物重定位变得尤为关键。与昂贵且费时的体内或生物学试验相比,计算方法可以有效地识别潜在的DTIs并大大减少候选药物蛋白的范围。所以如何明确可靠的与药物相关的候选蛋白质,是一项值得研究的课题。本文提出了三种基于深度学习的DTIs预测方法-
现如今,人们正处于信息化的时代,研究学者们越来越热衷于从图像中获取所需的信息,而图像上的文本可以帮助人们更好的理解图像信息。因此,提取图像中的文本信息成为了近年来科研界的一个热门的研究任务,而自然场景下拍摄的图像非常复杂多变,给检测任务带来了极大的挑战。传统的机器学习方法已经不能满足任务的需求,得益于深度学习技术的推广和应用,给场景文本检测任务带来了新的机遇和可能性,广大研究学者纷纷将深度学习技术
学位
近年来,随着移动互联网和智能传感器技术的发展,移动群智感知计算模式在学术界、工业界和企业界得到广泛的关注。移动群智感知系统利用工人携带的智能设备的感知与计算能力,通过移动互联网进行协作来完成复杂的感知任务。在移动群智感知系统中,工人招募是一个核心共性的研究问题,是一种考虑任务和工人等因素的满足多种优化目标和约束条件的组合优化问题。移动群智感知中的工人招募问题的研究主要面临参与感知任务的工人数量不足