一种不稳定环境下的策略搜索及迁移方法

来源 :电子学报 | 被引量 : 0次 | 上传用户：Luke_ibox

【摘要】

：

强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于

【作者】

：

朱斐刘全傅启明陈冬火王辉伏玉琛

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室,符号计算与知识工程教育部重点实验室（吉林大学）,苏州科技学院电子与信息工程学院

【出处】

：

电子学报

【发表日期】

：

2017年2期

【关键词】

：

强化学习策略搜索策略迁移不稳定环境公式集

【基金项目】

：

国家自然科学基金(No.61303108,No.61373094,No.61272005,No.61472262,No.61502329);江苏省高校自然科学研究基金(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金(No.93K172014K04);苏州市应用基础研究计划基金(No.SYG201422);苏州大学高校省级重点实验室基金(No.KJS1524);中

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优

其他文献

论昌耀诗歌高原意象内在意义

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

昌耀高原意象自然生命灵魂

浅谈英语阅读理解常考题型及答题技巧

阅读理解试题是考查学生的运用能力的主要题型，是对字、词、句法的进一步学习和综合运用。因为阅读能力的高低直接影响获取信息的能力，所以阅读理解试题强调对全篇文章的整体把

期刊

阅读理解考试题型技巧

小学语文新课导入教学中存在的问题

随着社会的发展,人们的文化素养在不断的提高。语文迎来了发展的新时代,这对语文学科的学习来说是一把双刃剑,是机遇也是挑战。语文学科的新发展得到重视,学生的文化素养在提

期刊

小学语文教学策略兴趣培养

德育教育在小学道德与法治课程教学中的应用效果

小学道德与法治课程教学是帮助学生塑造人格,养成良好行为习惯的重要途径,而德育教育在小学道德与法治课程教学中的应用,更是帮助学生获取丰富情感体验,促使学生健康成长的关

期刊

小学道德与法治德育教育应用效果

小学语文古诗词教学中的情感教育渗透探析

新课标推进后,要求小学语文教师不仅要只关注课堂中对学生知识的传授,而是注重对学生方法的指导,促进学生的全面发展。在教材改版后,传统文化所占的比重越来越大,小学生肩负

期刊

小学语文古诗词进行情感教育渗透

湖南新升格本科院校公共体育课程体系构建研究

根据湖南省新升格本科院校公共体育课程、学生、教师、社会等因素,探讨湖南省新升格本科院校体育目标,提出合理地研究学生身体发育的过程,充分利用体育的价值原则和体育因素,

期刊

普通高校体育课程改革

红景天苷抗衰老和抗氧化药理机制研究新进展

红景天是珍稀野生药材,红景天苷作为红景天的主要有效成分,具有显著的抗衰老和抗氧化的药理作用。经查阅并总结近3年国内外相关文献,发现前人研究主要集中在神经系统、心血管

期刊

红景天苷抗衰老抗氧化皮肤神经系统心血管系统药理机制

新桂系“焦土抗战”论述评

“焦土抗战”的口号最早是由李宗仁提出来的,并经过李宗仁、白崇禧等多方面的阐述,发展成为新桂系的抗日主张。“‘焦土抗战’四字后来在抗战期间曾被广泛引用,成为一项最悲

期刊

焦土抗战新桂系李宗仁

精准医学视域下我国肿瘤学的研究现状与展望

期刊

精准医学肿瘤学临床治疗研究现状

梨树科学施肥技术

目前梨树主要栽培在丘陵地、河滩地、风积坡岗地等科学施肥、合理施肥是获得高产的主要措施。

期刊

施肥管理环状沟施科学施肥

一种不稳定环境下的策略搜索及迁移方法

与本文相关的学术论文