搜索筛选:
搜索耗时1.2787秒,为你在为你在102,285,761篇论文里面共找到 2 篇相符的论文内容
类      型:
[会议论文] 作者:陈宗海,段家庆,任燚,罗杨宇,李成荣, 来源:2008系统仿真技术及应用学术会议 年份:2008
针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏,不能对每个动作进行奖赏分配,无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR,关心的是完成任务过程中的每个动作和趋势,实时对其进行奖赏.并提出了一种基于过程奖赏和优先扫除......
[会议论文] 作者:陈宗海[1]段家庆[1]任燚[1]罗杨宇[2]李成荣[2], 来源:'2008系统仿真技术及应用学术会议 年份:2008
针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏,不能对每个动作进行奖赏分配,无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR,关心的是......
相关搜索: