基于深度强化学习的仿真狗地形适应控制算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jingkaiqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们生活水平的不断提高,人们对电视动画、电影特效以及电脑游戏中的画面等都提出了更高的要求,在许多电影特效和游戏动画中,常常需要酷炫的角色运动画面。传统的基于关键帧的运动片段生成技术,需要专业人员进行大量的手动关键帧筛选工作,冗余度较高。近来,随着计算机计算能力的大幅提升,基于物理仿真的方法逐渐流行起来。该方法用计算机模拟自然真实角色运动,考虑模拟物体在真实世界的属性与环境的交互过程,不必关心物理运动过程的细节。经过近几年的发展,它已成为一种具有潜在优势的运动模拟技术。现有的基于物理仿真的角色运动控制技术大多将角色运动的环境设定为平坦地形,不考虑更复杂的地形因素。强化学习常用来解决与环境交互下的决策问题,为控制物理仿真角色提供了理论依据,而神经网络在特征提取上又有着非凡的效果。针对大部分控制器不能输出有效适应不同地形策略的问题,本文采用Bullet物理引擎,提供仿真狗角色模型,搭建了一种基于深度神经网络的控制器,使用离线策略下的强化学习算法实现了仿真狗在不同地形下的运动控制,从而实现适应地形运动的目标。首先,建立具有高维连续状态动作空间的马尔可夫决策模型,包括仿真角色状态的表示,动作参数的选取,以及报酬函数的构建,将控制问题转化为一系列的决策过程;然后,基于有限状态机的行为建模,将一个运动周期分为4个阶段,建立一个运动周期过程状态转换模型,完成一次完整运动的低层控制;搭建深度神经网络,输入角色高维连续状态和地形特征,给出不同的深度强化学习算法训练网络,从而实现高层动作参数的输出。通过搭建仿真平台,训练神经网络的参数,本文验证了深度神经网络与强化学习算法结合,对不同地形下仿真狗运动控制的有效性,实现了仿真狗在动态环境中适应地形的运动。
其他文献
根据四川省牧区草原鼠虫害主要发生地区越冬前调查结果,结合冬季气象条件和去年防治工作开展情况综合分析,2016年全省牧区草原鼠虫害发生面积预计将为5 602.9万亩(1亩=667平方
In this paper the DSRC/IEEE 802.11p Medium Access Control (MAC) method of the vehicular communication has been simulated on highway road scenario with periodic
将成年健康家兔用10%水合氯醛液进行耳缘静脉注射麻醉,然后剖开腹腔,分别在十二指肠段、空肠段和回肠段各选一段5cm长的肠段结扎,并分别注入一定量的1%葡萄糖溶液,30min后,收集结扎
水稻秧苗直接影响水稻的产量、品质和效益.指出种子休眠期长,吸水量不足,温度不适宜,浸种药剂使用方法不当,壮秧剂与床土混拌不均,播种方法不科学,除草剂使用不合理等都是影
We evaluated the road traffic accidents and drinking habits in all 47 prefectures of Japanby ecological study. Data on traffic accidents were obtained from Mini
This paper presents a new conception—ecological tunnel, which is contrived to meet increasingly tough challenges in the 21st century. Ecological tunnel refers
近年来,长宁县大力实施“生态畜牧”发展战略,全县现代畜牧业发展取得了新成效。但发展中仍存在一些问题,阻碍着畜牧兽医事业的进一步发展和对畜禽疾病的控制,急需解决完善。1主
目的对珂立苏联合CPAP治疗新生儿急性呼吸窘迫综合征的临床治疗效果进行分析。方法选取在我院接受治疗的90例新生儿急性呼吸窘迫综合征患儿,平均分为试验组和对照组各45例。
目的:了解上海地区孕妇中晚期能量及营养素摄入情况,并与推荐摄入量相比较,评价是否合适。方法:在上海交通大学医学院附属新华医院产科门诊和病房,对经口头同意接受调查的227
目的:观察水桃丸联合恩替卡韦片治疗慢性乙型肝炎的疗效及对IL-6、IL-10水平的影响。方法:将60例慢性乙型肝炎患者随机分为两组,对照组采用恩替卡韦片联合安慰剂治疗;治疗组