基于深度强化学习的游戏博弈策略的研究与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:kingbottle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是一种新的算法,它结合了深度学习和强化学习,以实现从感知到行为的端到端的学习。就像人一样,直接通过深度神经网络输入感知信息,如视觉和输出动作,而不需要手动操作。通过深度强化学习训练的代理人能够完全自主地学习一种或多种不同的技能。近两年机器学习迅速发展,深度强化学习作为机器学习的一个分支,发展尤为猛烈。深度强化学习旨在解决计算机从感知到控制的问题,基于深度强化学习算法创造出的成果已经逐渐应用于我们的日常生活,在计算机视觉,语音识别,自然语言处理等相关领域的发展取得重大突破,但是这些领域所研究的问题,都仅仅是让计算机认识和理解环境,而没有解决人工智能最核心的问题-决策控制。需要向计算机输入感知信息的例如计算机视觉等感知问题,计算机可以根据感知信息理解和判断控制问题,并由计算机判断并输出正确的行为要求。为了使计算机能够做出适当的决策控制,需要计算机具备一定的“思考”的能力,以便计算机能够通过学习获得解决各种问题的能力,而这正是通用人工智能研究的目标。智能体的行为都可以归纳为智能体与环境进行交互,智能体观察环境,根据自身的状态及所观察的环境做出动作,更改环境,并将反馈返回给智能体。因此,核心问题是如何构建可以与环境进行交互的智能体。深度强化学习就是将善于提供学习机制的深度学习,和可以为智能体提供学习目标的强化学习进行优势结合,使得智能体具备学习复杂能力的潜力。本文首先使用深度强化学习提出的第一个算法DQN进行实验,将智能体放在贪吃蛇游戏环境中进行博弈训练,智能体在训练时将不会得到除图像像素和分数之外的任何信息,智能体必须自己学习,并直接使用输入和分数来制定最佳行动策略。之后,本文加入课程学习策略,将课程学习思想与DQN算法相结合,再次对智能体进行博弈训练,对比实验结果。通过实验表明,使用深度强化学习算法DQN训练的智能体在与对手的博弈训练后可以获得更高的分数和更长的存活时间,使用课程学习策略则可以大大提高智能体的训练速度,进一步提升智能体的表现。
其他文献
一个年轻演员数次拒绝担纲那些让好莱坞横行世界的超级大片,需要的恐怕不仅仅是胆量。但瑞恩·高斯林却习惯了对这类致命诱惑一次次地说"NO",就像说"谢谢你"或者"没关系"
他们是这样一群人:真诚坦率、眼神清澈、喜欢张艺谋、推崇贾樟柯、醉心中国传统文化、更渴望触碰现实主义题材,他们将来很有可能成为中国电影市场的外籍军团生力军。作为亚洲
患者,女性,19岁。就诊前3周摔伤后出现腹胀、腹痛,症状加重3天,于2012年5月26日入院。体格检查:体温37.4℃,腹膨隆,剑突下压痛,无反跳痛,肝脾肋下未触及,移动性浊音(+),肠鸣音正常,余无明显异
与神嗨前作相比,本片主要外景选在人"妖"难辨的泰国,更添其乱,而王牌绿叶德尼罗、尼森、克林顿、泰森、黑帮、猴子的组团引入,更适合乱炖一锅出的主题。
通过对安徽省九所地方性应用型“高水平大学”的图书馆馆藏数字资源的调查,从资源建设投入力度、数据资源建设整体规划、自建(特色)数据库建设、图书馆主页学科导航布局、资
大数据与知识经济时代,包括学术期刊在内的出版业开启了知识服务转型升级的新进程。高校学报作为知识内容生产者,具有知识服务转型的可能性。不过考虑到高校学报的现实处境,
以动漫游戏为中心的娱乐产业占据了日本国民生产总值近1/8的比重,为什么在中国动画片被认为"只有小孩子才会看",而在日本则作为成年人也乐此不疲的核心文化呢?日本动画将青少
随着社会的发展和科技的进步,不同层次的高校都在制定适合自身的人才培养模式,以适应社会的需求和自身的发展。本文以宿迁学院材料工程系“1+3”的人才培养模式为例,探讨了应用
高校学报的学术运营是为了拓展其内容生产、知识服务、价值增值等功能,延伸编辑出版的内涵和外延,充分释放创新活力,提升学报的运作效率,建构学报的品牌优势。高校学报的学术
森林等自然资源的价值评估在我国已经非常普遍,并且还将广泛应用于国家行政管理中。但是,森林资产评估在我国的应用,存在着基础性的概念错误,从而导致众多的评估案例和研究结果不