搜索筛选:
搜索耗时3.3595秒,为你在为你在102,285,761篇论文里面共找到 1 篇相符的论文内容
类      型:
[期刊论文] 作者:魏语轩, 李昕闻, 陈兴国, 来源:软件导刊 年份:2023
强化学习已在各行业得到广泛应用,强化学习所需的大量探索在很多语境下均可能带来严重后果。为此,业界提出安全强化学习。从经济学中借鉴的效用函数是其中的一种常用技巧,但其在搜索算法中还未得到充分研究。当智能体在风险中立的语境下进行训练后,如何利用搜索算法......
相关搜索: