基于人工智能的游戏智能体行为决策

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:shaokangtian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在游戏智能体行为控制方面,目前国际上采用人工智能作为控制手段已存在不少。Open AI研究结果表明,特定的进化策略在训练大型神经网络时要优于原本使用基于梯度下降方法的训练效果,相对应地需要更多的计算力。在应用层面上本文尝试提出一种在低计算力情况下实现游戏智能体的逻辑行为控制方法,即一种在基于遗传算法训练神经网络的基础上,使用强化学习自行调整神经络结构的算法。本文在Unity3D运行环境中构建一个多智能体环境,在该环境中将训练任务分为两个阶段。首先在基于多策略遗传算法训练神经网络的算法当中。使用遗传算法作为搜索方法,并行性好,全局搜索能力强。但缺点是,在群体不够大时,训练初期容易由于个体基因竞争力过强导致群体整体基因丰富性降低,最终陷入局部最优。而使用多策略遗传方案可以有效降低这个缺点。其次在基于强化学习的神经网络算法当中。将神经网络的结构标记为强化学习中的状态,每个训练周期调整一次网络结构,由于在网络结构改变的过程中不会丢失网络信息从而打断训练过程,因此调整网络结构的周期可以很短,从而提高网络的训练效率,与此同时也更进一步地降低了遗传算法造成过早进入局部最优的可能性。本文的目的是,在低计算力的情况下,使用强化学习及遗传算法动态调整的神经网络依然能够满足游戏智能体行为逻辑控制的要求。实验结果表明,使用多策略遗传算法训练的游戏智能体能够完成基本的行为逻辑,并且在此基础上加入强化学习调整神经网络模块后,游戏智能体的适应度有了明显提升,同时也能够完成更复杂的行为逻辑。
其他文献
“边缘人”理念从西方发展而来,目前我国学术界大多是借鉴西方的理论,再结合我国具体的社会问题对边缘群体进行定义。边缘理论源起于社会学研究,随着社会的发展,社会问题逐渐
经颅磁刺激(Transcranial Magnetic Stimulation,TMS)是一种新型无创、无痛的精神疾病治疗方法,在生物医学和康复医学等研究领域展现出了巨大的发展潜力。多通道经颅磁刺激是
带钢热连轧生产过程中,需要制定相应的轧制规程,精轧机组轧制规程制定的核心问题是负荷分配。负荷分配问题的本质是将精轧机组入口到出口的总压下量合理地分配到各个机架,以
作为档案工作的重要组成部分,档案宣传工作是提高全民档案意识、推进依法治档,传播档案文化,促进档案事业发展的重要手段。档案工作取得的一切成绩,与顺利开展档案宣传工作有着密不可分的关系。随着文化强国战略的提出,国家科技水平飞速提升,为档案工作的创新与发展,档案宣传工作面临着前所未有的机遇,要求我们提高并完善档案工作的服务方式与服务手段,因此,加强和改进档案宣传工作,对促进档案事业的发展、构建和谐社会尤
近年来我国经济高速发展,城市化进程不断加快。城市大面积扩张破坏了自然环境,改变下垫面属性,对城市微气候产生重要影响,形成日益严重的城市高温与热岛效应问题。城市街道峡谷作为城市基本组成单元,对城市发展和城镇居民生活至关重要,研究城市街道峡谷气温时空分布规律及其微气候影响机制,探究城市热环境变化的影响因子具有重要科学价值。当前城市热环境的研究中多使用数值模拟法进行城市街道峡谷瞬时气温动态模拟,但数值模
随着我国天然气市场的快速发展,天然气需求与供给之间的矛盾日趋激烈,特别是我国北方地区的冬季时段,在近两年的“煤改气”政策推行后,天然气消耗量迅速攀升,因此,保证天然气
分数阶系统是一类由分数阶微分方程所描述的动力学系统,其微分阶次通常都被认为是一个非整数.分数阶控制系统通常是指被控对象为分数阶系统或者是用分数阶类型的控制器对整数阶被控对象进行综合控制的一类控制系统.作为一类特殊的复杂系统,分数阶系统已成为当前控制科学领域中一个重要的前沿,相关控制问题已经引起了学者的广泛关注.另一方面,由于网络带宽和一些硬件设施的限制,通信受限问题在网络化系统的研究中亦备受关注.
作为计算机视觉和模式识别领域里的热点研究课题,人脸识别技术一直被学术界和工业界广泛关注。目前,人脸识别技术已经广泛应用在日常生活中的各个领域,然而在现实场景中,光照、遮挡等因素会严重干扰人脸识别算法的性能,为此,本文在现有研究成果的基础上,对人脸识别技术进行了改进。人脸识别通常包含三个步骤:图像特征提取、数据降维、特征匹配,本文主要对人脸图像的特征提取方法进行了较为系统的深入研究。本文针对人脸识别
基于迭代函数系(Iterated Function System,IFS)的理论,Barnsley于1986年提出了分形插值函数(Fractal Interpolation Function,FIF)的概念以及构造方法.传统的插值方法产生的插值函数通常是光滑的或逐段光滑的,它们在拟合非光滑、不规则的现象和事物时显得乏力.而分形插值函数是不规则的,且具有很强的灵活性,因而成为刻画具有自相似性的事物和
2006年以来,P2P网络借贷服务在全球范围内兴起并得到快速发展。P2P网络借贷平台的兴起,其实质是现代互联网技术与当下社会资金借贷需求的高度结合。其立足于互联网影响范围广