神经网络增强学习的梯度算法研究

来源 :计算机学报 | 被引量 : 0次 | 上传用户：lhihxk

【摘要】

：

针对具有连续状态和离散行为空间的Markov决策问题，提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该算法采用了近似贪心且连续可微的Boltzmann分

【作者】

：

徐昕贺汉根

【机构】

：

国防科学技术大学自动化研究所

【出处】

：

计算机学报

【发表日期】

：

2003年2期

【关键词】

：

神经网络增强学习梯度算法 MARKOV决策过程值函数逼近机器学习 reinforcement learning neural networks Mark

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对具有连续状态和离散行为空间的Markov决策问题，提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略，通过极小化具有非平稳行为策略的Bellman残差平方和性能指标，以实现对Markov决策过程最优值函数的逼近.对算法的收敛性和近似最优策略的性能进行了理论分析.通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能.

其他文献

一种多重密钥共享认证方案

给出了一种多重密钥共享认证方案.在该方案中,管理者容易给出任意用于共享的多重密钥集,成员拥有的子密钥不仅能重复使用,而且是可认证的.所给方案提供了抵御管理者欺骗和成

期刊

多重密钥共享认证管理者欺骗成员欺骗离散对数问题密码信息安全multisecret sharing dealer cheating partici

周期芽苞Fibonacci序列构造M—J混沌分形图谱的一族猜想

利用逃逸时间算法绘制M-J混沌分形图谱,通过计算机数学实验找到Mandelbrot集的普适常数和相应充满Julia集的近似标度不变因子,定性说明了M-J混沌分形图谱标度不变的特性. 同

期刊

周期芽苞FIBONACCI序列M-J混沌分形图谱标度因子拓扑不变性计算机数学universal constant scaling factor

论模糊市场的量化分析及企业的对策

模糊市场,是市场要素模糊且边界不清楚的市场.由于模糊市场的决策难度大,易导致错误决策,所以研究如何量化它具有重大意义.一、模糊市场量化原理精确数学,是建立在集合论的基

期刊

量化分析隶属函数模糊集合市场要素特征函数隶属度模糊模式识别中心数据库市场销路量化分析法

随机时间依赖网络的K期望最短路径

首先给出了随机时间依赖网络模型、K期望最短路径问题的形式化描述,并针对公交网络推导出到达弧头结点的时刻所服从的概率密度函数、路径期望耗费的计算方法;然后,基于随机一

期刊

K期望最短路径路径规划期望路径随机时间依赖网络NP问题公共交通网络Data structuresOptimizationProbability

一种新的线边界检测方法

提出了一种超声图像的多尺度非线性抑噪的自适应线边界检测方法 ,首先对超声斑点图像进行多尺度分解 ,然后对高频部分应用非线性软阈值方法来抑制斑点噪声 ,再利用逆小波变换重建图像 ,最后采用基于“窄条”的线边界检测方法对降噪图像进行处理 ,以不同方向与大小的“窄条”来近似组织边界 ,其中“窄条”的大小由基于区域增长的局部统计特性决定 .仿真实验与组织超声图像验证了此方法在抑制斑点噪声与增强边界方面具有

期刊

线边界检测方法图像处理非线性软阈值方法超声图像医学speckle multiscale nonlinear thresholding bounda

“银河”星光灿烂——记陕西银河股份有限公司董事长兼总经理王耕银

早就听说过韩城市诞生了三秦大地上第一家民办的银河股份公司;早就听说银河公司有座“戳破天”的银河大酒店;早就知道银河公司的缔造者,总经理兼董事长王耕银胆识过人,是个敢

期刊

公司董事长韩城市股份公司银河总经理洗煤厂焦化厂公司的成立军旅生涯价值取向

用布尔代数方法计算最小碰集

在基于模型的诊断中,模型一般都是用布尔代数来表示,而计算碰集(hitting sets)则采用HS-树或图,这就使得诊断系统采用多种不同的数据结构,给编程实现带来了不便. 本文用布尔

期刊

人工智能布尔代数方法计算最小碰集模型诊断最小冲突集model-based diagnosis minimal conflict set mini

检察机关应为企业保驾护航

在社会主义市场经济新体制下,作为上层建筑领域的法律机关—人民检察院,如何为经济领域服务,如何为企业保驾护航,才能确保我国社会主义市场经济体制的建立和正常运转呢?本文

期刊

检察机关依法经营市场经济体制生产经营经济犯罪经济法律法规国有企业社会主义市场经济企业领导班子上层建筑领域

围绕地方财源建设调整工业经济结构

国家财税体制改革后,如何围绕地方财源建设、发展地区经济是事关一个地区长治久安、保持稳定发展的头等大事。尤其对地处内陆、财源与各项事业发展需要存在较大缺口的宝鸡市

期刊

地方财源建设建设调整地方工业经济宝鸡市结构调整工业结构技术改造地区经济龙头产品财税体制改革

扩大开放机遇承东启西求发展——关于加快发展陕西经济的几点思考

一、抓住机遇,迎接战略西移党中央关于“解决地区发展差距,坚持区域经济协调发展”的战略,为加快中西部的发展提供了历史性的机遇。为了逐步缩小东西部差距,顺利实施陕西“

期刊

陕西经济发展中西部地区承东启西扩大开放加快发展求发展发展优势产业抓机遇抓住机遇新亚欧大陆桥

神经网络增强学习的梯度算法研究

与本文相关的学术论文