一种大规模离散空间中的高斯强化学习方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：datang0826

【摘要】

：

针对大规模离散空间中强化学习的“维数灾”问题，即状态空间的大小随着特征的增加而发生指数级的增长，提出了一种基于高斯过程的强化学习方法。在本方法中，高斯过程模型有表示函

【作者】

：

周文云刘全李志涛

【机构】

：

苏州大学计算机科学与技术学院,南京大学软件新技术国家重点实验室

【出处】

：

计算机科学

【发表日期】

：

2009年8期

【关键词】

：

强化学习维数灾高斯过程回归函数分布 Reinforcement learning Curse of dimensionality Gaussian pr

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对大规模离散空间中强化学习的“维数灾”问题，即状态空间的大小随着特征的增加而发生指数级的增长，提出了一种基于高斯过程的强化学习方法。在本方法中，高斯过程模型有表示函数分布的能力，使用该模型之后，可以得到的不只是一个所需的估计值，而是关于该值的一个分布。实验结果表明，结合了高斯过程的强化学习方法在各方面性能，如收敛速度以及最终实验效果等都有所提高。使用高斯方法的回归模型可以在一定程度上解决大规模离散空间上的“维数灾”问题。

其他文献

《电路》课程CAI课件的开发与实现

介绍了中文Ｗｉｎｄｏｗｓ环境中，采用Ａｕｔｈｏｒｗａｒｅ开发系统研制开发的《电路》课程ＣＡＩ课件，以及对开发过程中的几个技术问题的处理和实现方法。

期刊

电路理论软件工程CAIWINDOWSCircuit theory Computer aided instruction Software enginee

媒介融合背景下电视综艺转型发展浅析

随着传媒产业的发展创新,综艺节目逐渐成为电视和网络节目的重要形式载体,呈现出"井喷"之势,构成了受众精神文化生活的重要内容。面对互联网等新兴网络视频网站的冲击,传统电

期刊

媒介融合综艺节目电视转型

Windows Mobile平台上H．264解码器的优化

H．264视频压缩标准的出现为在较低带宽上提供高质量的图像传输提供了更好的保障，而且对无线网络传输提供了更好的支持功能。但由于H．264计算量较大，因此对于如何在计算和存储能力

期刊

H.264解码器WINDOWSMOBILEWMMXH. 264 Decoder Windows mobile WMMX

当前县支行监督工作机制的难点及建议

一．当前县支行监督工作机制的成效（一）确立了监督部门的独立地位。实行“派驻制”后的监督机构，较好地理顺了监督机构的隶属关系，与人民银行集中统一的领导体制相适应，真正体现出监

期刊

监督工作机制监督机构监督部门人民银行隶属关系领导体制控制职能

基于全局优化搜索算法的图像分割研究

基于聚类的图像分割算法中,由于模糊C-均值算法需要初始化,并且目标函数存在许多局部极小点,如果初始化落在目标函数的局部极小点附近,就会造成算法收敛到局部极小。为了解决此问题,采用全局优化搜索算法,提出了将全局优化搜索技术引入进来对模糊C-均值算法加以改进,分析了在不同初始条件下,对许多样本的聚类分析时,全局优化搜索算法比传统的模糊C-均值聚类算法更加有效,通过仿真实验验证并对算法性能进行理论分析。

期刊

全局优化搜索图像分割模糊聚类模糊C-均值算法硬C-均值算法Global optimization search Image segmentation

钐试剂在有机合成中的应用—烯丙基卤代物与酯的反应

在金属钐的作用下,烯丙基卤代物与酯反应,生成α,α-二烯丙基叔醇,其中,与内酯反应,开环生成二醇,其反应可能通过有机钐中间体。

期刊

钐酯有机合成烯丙基卤代物SamariumEsterOrganicSynthestAllylgroupsHalides

基于人民银行内联网的视频会议系统设计与实现

随着网络技术的快速发展，网络视频会议技术也得到了飞速发展。网络视频会议改变了传统的会议模式，是当今这个注重即时视频通信时代重要的交流方式。结合已架设好的网络架构，构建

期刊

网络视频会议系统人民银行内联网设计视频会议技术网络技术会议模式视频通信

曲柄式摆线减速机啮合效率的新算式

本文首先指出,按文献[1]提供的曲柄式摆线减速机啮合效率公式进行计算,其结果是与实际不符的,也是与该减速机啮合效率高的结论自相矛盾的。然后应用转化机构法,导出了这种减

期刊

减速装置机械效率啮合计算Speed redactors Mecharical efficiency Speed ratio

基于FI—SEM集成方法的信息系统实施过程评价研究

以系统论为指导，构建信息系统实施过程评价指标体系。提出了将模糊积分评价方法和结构方程模型方法有机集成，用以评价信息系统实施过程——FI-SEM集成方法。本方法可以有效处理

期刊

信息系统评价模糊积分方法结构方程模型IS Evaluation Fuzzy integral Structural equation model

关于重大案件报道新闻故事化叙述探究——以张玉环案为例

刑事案件报道是法治新闻报道最常见的类型之一,因为本身的特点,容易引起受众的关注。通过观察,近年来媒体对案件的报道更加强调煽情化、故事化,但背后的弊端也慢慢凸显。本文

期刊

新闻故事化煽情舆论失焦张玉环案

一种大规模离散空间中的高斯强化学习方法

与本文相关的学术论文