搜索筛选:
搜索耗时0.0335秒,为你在为你在23,761,000篇论文里面共找到 3 篇相符的论文内容
类      型:
[学位论文] 作者:陶钊榕,, 来源:哈尔滨工业大学 年份:2013
强化学习中报酬函数主要是根据经验人为设定的,难以保证最优性,学徒学习同样需要求取报酬函数。逆向强化学习通过学习演示轨迹或专家策略去构造潜在报酬函数,为报酬函数的自动构......
[会议论文] 作者:陶钊榕, 陈智超, 李衍杰,, 来源: 年份:2004
逆向强化学习是指通过专家行为获取潜在报酬函数的过程,进而可利用强化学习等优化理论得到最优的控制策略,因而可以实现对专家行为的模仿。本文从性能灵敏度分析的角度研究了...
[期刊论文] 作者:刘燎, 吴爱国, 陶钊榕, 孙华苗, 谢成清,, 来源:航天器工程 年份:2019
为了提高微小卫星的自主能力,设计应用全球卫星导航系统(GNSS)定位数据的微小卫星自主导航方案,可进行自主轨道确定和轨道预报。GNSS接收机生成的定位数据发送给自主导航模块...
相关搜索: