搜索与魏语轩相关的论文 - 搜论网

搜索筛选:

搜索耗时3.3595秒,为你在为你在102,285,761篇论文里面共找到 1 篇相符的论文内容

类型:

全部期刊学位会议报纸英文

发布年度:

全部 2024 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 更早

排序方式:

相关性最新发表最早发表

基于效用函数的期望最大搜索算法

[期刊论文] 作者：魏语轩, 李昕闻, 陈兴国, 来源：软件导刊年份：2023

强化学习已在各行业得到广泛应用，强化学习所需的大量探索在很多语境下均可能带来严重后果。为此，业界提出安全强化学习。从经济学中借鉴的效用函数是其中的一种常用技巧，但其在搜索算法中还未得到充分研究。当智能体在风险中立的语境下进行训练后，如何利用搜索算法......

下载此文

相关搜索：

看过本文同时还关注