Q-学习相关论文
随着“中国制造2025”时间点的迫近,机器人的应用日益广泛,生产生活中随处可见机器人的身影。在生产工作中,机械臂周边的环境不仅......
复杂工业过程具有模型维数高、多时间尺度耦合、动态不确定性等特点,其运行优化控制(Operational optimal control, OOC)一直是控制......
为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q-learning算法。首先,考虑采用强化学习中的Q-learning算法来实现姿态......
无线网络技术凭借着诸多优势,比如低成本、移动方便等,逐渐应用到工业系统中。同时也带来一些问题,例如,容易在数据传输的过程中发......
在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间......
认知无线电是一种能自动感知周围环境并检测到空闲频谱的新技术,快速和准确的检测到频谱空穴技术是目前研究的一个热点。由于实际环......
温室控制是设施农业的关键技术,如何以最经济有效的方式控制温室环境达到满意效果,是温室技术的一个关键而又薄弱的技术环节.温室......
局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机......
完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值......
强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目......
得益于微机电系统的飞速发展与日益成熟,智能传感器节点具有数据感知、无线通信、协同合作等功能,故可浸入式地获取网络覆盖范围内......
在对农田水利设施进行管理维护时,由于其公共品属性和农民个人理性,会采取搭便车策略,导致参与积极性不高.首先建立了农民参与农田......
提出了一种多Agent并行Q-学习算法. 学习系统中存在多个Agent, 它们的学习环境、学习任务及自身功能均相同. 在每个学习周期内, 各......
采用面向对象思想构造了既有继承性、封装性,又具有智能性、自主性的智能主体Agent。结合MAS(Multi-AgentSystem)的群体智能性和博......
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行......
基本Q-学习算法总是利用当前最优策略进行动作的选取,这样容易陷入局部最优。文章在模拟退火强化学习基础上提出了基于探索区域扩......
探索与扩张是Q-学习算法中动作选取的索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表......
期刊
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和......
提出了一种利用Q-学习解决动态单机调度环境下的自适应调度规则选择的方法。该方法针对动态调度环境中系统状态空间大,Q-学习不易收......
该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型,该模型具有如下特点:用基于效用的相似度比较法实现Agent智能搜索;......
为了减少车辆通过路口的延误,采用云模型建立控制策略,运用Q-学习改进控制模型的参数.路口信号控制智能体通过感知系统获得车辆到达信......
相关反馈实现了人机交互,是图像检索中的不可缺少的部分,一般图像检索中都使用一种反馈算法。IRRL模型将机器学习中的强化学习原理应......
针对多agent系统强化学习中,状态空间和动作空间随着agent个数的增加成指数倍增长,进而导致维数灾难、学习速度慢和收敛性差的问题,提......
为提高汽车的行驶平顺性和转向稳定性,用Matlab/simulink平台建立了SAS(半主动悬架)与EPS(电动助力转向)的集成模型,并与Carsim整车动力学......
强化学习使agent具有在线自主学习能力,该文介绍了MDP模型下的自适应动态规划、时序差分学习、Q-学习等几种典型agent强化学习方法,......
针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题,提出了一种数据驱动Q-学习算法.该算法首先构建智......
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把......
强化学习一词出自行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必须增加智能系......
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和......
针对RoboCup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值......
针对现有交通信号控制系统的诸多不足,提出了一种用于交通信号控制的两层递阶多Agent系统解决方案。通过将交通网络进行区域划分,利......
动态交叉销售是电子商务中的一种新型营销手段.在已知关联规则和商品库存水平的情况下,要研究两个决策问题:(1)如何选择交叉销售的......
基于智能体的信号控制方法已经成为研究热点之一,目前遗传算法已被用来实现agent的自学习,论文将Q-学习应用在城市交通控制中,用来解......
机器人为实现在复杂环境下的探索任务,必须具有自主学习其行为策略的能力.本文将Q学习与基于案例的学习结合,实现机器人在复杂环境......
介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结......
利用Q-学习算法,针对模型未知只有数据可用的非线性被控对象,解决最优镇定控制问题。由于状态空间和控制空间的连续性,Q-学习只能......
针对在基于行为的移动机器人沿墙导航控制器的设计中缺乏足够的先验知识的问题,采用Q-学习方法让机器人通过学习来自动构建导航控......
基于智能体(Agent)系统强化学习原理和基于动态规划的Q-学习算法的基础上,提出了一种新的Agent强化学习算法.该算法在Agent学习过......
理性和收敛是多agent学习研究所追求的目标.在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agen......
针对当前基于Q-学习的Agent生产调度优化研究甚少的现状,利用Q-学习对动态单机调度问题在3种不同系统目标下的调度规则动态选择问题......
将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,结合Q-学习和BP神经网络来解决模糊神经网络参数在线调整问题,在无需训练样本的......
现代工业过程机理十分复杂,使得很难对生产过程以及运行指标与被控变量之间的关系精确建模。而传统工业过程多使用人工经验以开环......
目前无线自组织网络(Ad Hoc Network)已越来越普及,适用于多跳、自组织、去中心化场景。但网络中干扰攻击也日益增加,常造成节点间......
在介绍了Q-学习的基本算法之后,提出了变衰减因子Q学习算法;然后研究了该算法在智能机器人避碰中的应用,在文中的最后给出了仿真实......
针对Q-学习算法中探索与利用之间的平衡问题,在基于Metropolis准则的Q-学习的基础上,提出了基于探索区域扩张策略的Q-学习改进算法。......
神经模糊系统在机器人的智能控制中具有巨大的应用潜力,但已有的系统构造方法几乎都面临着样本资源匮乏这一巨大困难。为克服传统系......