连续空间的递归最小二乘行动者—评论家算法

来源 :计算机应用研究 | 被引量 : 2次 | 上传用户:yhmlivefor49
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
其他文献
针对节点的覆盖优化过程极易受到各种攻击的问题,通过从信任管理的框架内深入探索可靠覆盖技术,提出了一种基于网格信任度的可靠覆盖算法。该算法对节点进行可靠性筛选和轮换调度,以并行覆盖的方式对覆盖区域内的网格点实施基于信任度的覆盖。对节点信任阈值的取值进行讨论,分析得出信任阈值的大小对整个覆盖区域的安全性和覆盖质量有很大影响。经过仿真与传统的单一覆盖机制作比较,该算法能有效提高网络安全性和延长网络寿命。
随着实验系统规模的不断扩大,系统运行成本高、周期长等问题逐渐显现,这就造成了实验数据获取困难、可供分析的实验数据量偏小等问题。因此,有必要通过合理的模型和方法分析原始数据的特点,对实验数据进行建模预测,获得足够的数据来对系统进行下一步的分析。针对此问题,以灰色理论为基础,在非等间距GM(1,1)灰色预测模型的基础上,首先加入残差校正模型来提高预测精度,同时对于原始数据具有周期性的情形,建立周期补偿
针对贝叶斯信念网络应用于话题识别进行了研究,提出了新的话题识别模型。模型的拓扑结构包括新报道、报道术语、事件术语、话题四层节点,用弧标明索引关系。在贝叶斯概率和条件独立性假设的基础上,模型运用条件概率计算新报道和已有话题簇的相似度,从而实现话题识别。考虑到核心报道、核心事件的重要性,对不同层次的权重计算进行了调整。实验采用DET曲线评测法对模型性能进行测试,实验结果显示,调整后的权重计算可在一定程
对超快速模拟退火算法进行改进(A-VFSA),并以此为粒子发生器,提出了PSO-PG算法。该算法通过粒子发生器对搜索域内粒子进行改进,从而生成一个精英粒子池;并根据随机策略从粒子池中选择粒子,作为初始种群,采用PSO算法进行优化,得到全局最优解。相比于标准PSO算法和LDW算法,PSO-PG算法拥有更好的稳定性和优化精度,能够更加快速地收敛到全局最优解,在一定范围内几乎不依赖于初始参数的选择。