神经网络增强学习的梯度算法研究

来源 :计算机学报 | 被引量 : 0次 | 上传用户:lhihxk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近.对算法的收敛性和近似最优策略的性能进行了理论分析.通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能.
其他文献
给出了一种多重密钥共享认证方案.在该方案中,管理者容易给出任意用于共享的多重密钥集,成员拥有的子密钥不仅能重复使用,而且是可认证的.所给方案提供了抵御管理者欺骗和成
利用逃逸时间算法绘制M-J混沌分形图谱,通过计算机数学实验找到Mandelbrot集的普适常数和相应充满Julia集的近似标度不变因子,定性说明了M-J混沌分形图谱标度不变的特性. 同
模糊市场,是市场要素模糊且边界不清楚的市场.由于模糊市场的决策难度大,易导致错误决策,所以研究如何量化它具有重大意义.一、模糊市场量化原理精确数学,是建立在集合论的基
首先给出了随机时间依赖网络模型、K期望最短路径问题的形式化描述,并针对公交网络推导出到达弧头结点的时刻所服从的概率密度函数、路径期望耗费的计算方法;然后,基于随机一
提出了一种超声图像的多尺度非线性抑噪的自适应线边界检测方法 ,首先对超声斑点图像进行多尺度分解 ,然后对高频部分应用非线性软阈值方法来抑制斑点噪声 ,再利用逆小波变换重建图像 ,最后采用基于“窄条”的线边界检测方法对降噪图像进行处理 ,以不同方向与大小的“窄条”来近似组织边界 ,其中“窄条”的大小由基于区域增长的局部统计特性决定 .仿真实验与组织超声图像验证了此方法在抑制斑点噪声与增强边界方面具有
早就听说过韩城市诞生了三秦大地上第一家民办的银河股份公司;早就听说银河公司有座“戳破天”的银河大酒店;早就知道银河公司的缔造者,总经理兼董事长王耕银胆识过人,是个敢
在基于模型的诊断中,模型一般都是用布尔代数来表示,而计算碰集(hitting sets)则采用HS-树或图,这就使得诊断系统采用多种不同的数据结构,给编程实现带来了不便. 本文用布尔
在社会主义市场经济新体制下,作为上层建筑领域的法律机关—人民检察院,如何为经济领域服务,如何为企业保驾护航,才能确保我国社会主义市场经济体制的建立和正常运转呢?本文
国家财税体制改革后,如何围绕地方财源建设、发展地区经济是事关一个地区长治久安、保持稳定发展的头等大事。尤其对地处内陆、财源与各项事业发展需要存在较大缺口的宝鸡市
一、抓住机遇,迎接战 略西移 党中央关于“解决地区发展差距,坚持区域经济协调发展”的战略,为加快中西部的发展提供了历史性的机遇。为了逐步缩小东西部差距,顺利实施陕西“