资格迹相关硕士博士期刊学术论文

资格迹相关论文

部分可观察Markov决策过程中基于内部状态的强化学习研究

强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采......

学位

部分可观察马尔可夫决策过程强化学习内部状态多Agent系统策略梯度

不确定多目标云资源调度问题的强化学习算法

针对云计算领域的资源调度这一问题,国内外学者提出了多种云资源调度模型对其进行求解,但是在实际应用过程中会存在不确定性,因此......

学位

云资源调度 Z-number模糊数 Q学习算法启发式函数资格迹

5基于资格迹的RBF非线性系统强化学习研究

针对非线性系统控制中具有的连续状态和未知系统模型的问题,提出一种基于ET-RBF(资格迹和径向基函数)的Sarsa学习控制策略.由于经......

期刊

连续状态非线性系统资格迹强化学习 RBF

强化学习中资格迹的作用

强化学习一词来自行为心理学该学科把学习看作反复试验的过程,强化学习系统中的资格迹用来解决时间信度分配问题,文章介绍,了资格......

期刊

资格迹强化学习机器学习

带有资格迹的模糊CMAC控制仿真研究

提出一种带有资格迹的模糊CMAC控制器(FCE),资格迹的引入可以对控制系统进行超前预测,提高系统的稳定性。研究了FCE系统的构成,并......

期刊

资格迹模糊CMAC FCE控制器船舶航向控制 eligibility fuzzy CMAC (FCMAC) FCE controller ship c

基于TD（λ）的自然梯度强化学习算法

近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时......

期刊

策略梯度自然梯度 TD(λ) 资格迹 Policy gradient Natural gradient TD（λ） Eligibility trace

一种二阶TD Error快速Q（λ）算法

Q（λ）学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法．针对经典的Q（λ）学习算法执行效率低、收敛速......

期刊

强化学习马尔科夫决策过程二阶TD ERROR 资格迹 Q(λ)算法 Reinforcement Learning Markov Decision Proc

基于Elman网络的非线性系统增强式学习控制

针对具有连续状态和未知系统模型的非线性系统控制问题，提出一种基于Elman神经网络的Q学习控制策略．利用Elman网络良好的动态特性及......

期刊

非线性系统增强学习 Q学习 ELMAN网络资格迹 nonlinear system reinforcement learning Q learning

一种快速强化学习方法研究

在对资格迹理论研究的基础上,提出了一种延迟快速强化学习算法DFSARSA(λ)(延迟快速SARSA(λ)算法).算法的主要思想是通过对资格迹......

期刊

强化学习资格迹 SARSA(λ)算法 DFSARSA(λ)算法 reinforcement learning eligibility trace SARSA(

基于人机交互的强化学习与实验研究

本文研究具有人机交互能力的强化学习算法。通过人机交互给出操作者对学习结果的性能评价,智能体系统能获得当前状态与目标状态距......

期刊

强化学习人机交互资格迹

基于深度残差网络的人眼视觉估计算法的研究

人眼视觉估计是预测视线方向、定位注视点位置的过程。人眼视觉估计具有重大的研究价值和应用价值,被广泛应用在神经科学、心理学......

学位

人眼视觉估计人眼定位深度学习残差网络资格迹

基于多智能体相关均衡算法的自动发电控制

提出了一种分散式多智能体均衡算法(decentralized correlated equilibrium Q(?),DCEQ(λ))以解决新能源接入所带来的强随机环境下......

期刊

智能体自动发电控制控制性能标准相关均衡强化学习随机最优控制资格迹

机械臂的移动物体抓取方法研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清......

学位

机械臂移动物体跟踪抓取分解速度资格迹 A3C

采用资格迹的神经网络学习控制算法

强化学习是解决自适应问题的重要方法,被广泛地应用于连续状态下的学习控制,然而存在效率不高和收敛速度较慢的问题.在运用反向传......

期刊

强化学习神经网络资格迹倒立摆梯度下降

Skinner操作条件反射的一种仿生学习算法与机器人控制

针对两轮自平衡机器人的运动平衡控制问题,提出了基于Skinner操作条件反射理论的BP神经网络与资格迹相结合的仿生自主学习算法作为......

期刊

Skinner操作条件反射资格迹自主学习平衡控制两轮机器人

输电线路除冰机器人抓线智能控制方法研究

严重的高压输电线路覆冰会导致杆塔倾斜、倒塌、断线及绝缘子闪络，由此引起的线路跳闸、供电中断等事故给工农业生产和人民生活造成......

学位

除冰机器人抓线控制越障增强学习资格迹迭代学习

看过本文同时还关注