回报函数相关论文
当前疫情的爆发给人们的生活带来了极大的不便,而基于传感器技术和智能算法的移动机器人领域已经有了长足的发展,移动机器人已经可......
随着社会的进步和各国军事力量的不断提升,无人机集群将在民用和军用领域扮演着重要角色。无人机集群侦察监视在民用领域可用于环......
传统的无人飞行器航迹规划搜索算法虽然具有很强的路径搜索能力,但面临新的规划任务或飞行环境时,无法从历史经验中获得先验知识并加......
针对一种阈值分割算法很难对不同类型的图像进行有效地分割的问题,提出一种多阀值算法融合的方法.该方法通过不同的算法得到一组阈......
考虑一类带有分红过程的比例再保险模型,为推广其应用,将其费用函数进行了推广,利用随机分析中的最佳控制理论,求得其最佳控制策略及相......
针对机器人足球比赛的多智能体环境下智能体的训练问题,提出了一种将模糊控制与Q-Learning相结合的学习方法,并在学习过程中自动调......
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非......
随着空空导弹的不断发展,现代空战已经进入超视距空战时代。具备武器装备性能优势的一方,在接敌过程中大部分都倾向于避免“近身肉......
早、晚高峰期间城市交通拥堵已经成为一种普遍的现象,交叉口作为城市交通的关键节点,其运行效率对充分发挥路网性能、缓解城市交通......
在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利......
随着移动互联网的逐步发展以及大数据时代的出现,当下的传统蜂窝网络已然达不到越发增长的数据量的需求,而以Femtocell基站为典型......
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。......
阐述了军事智能博弈对抗的发展需求和概念内涵,分析了基于强化学习的博弈对抗特点,并针对智能博弈对抗过程存在的问题,提出了基于......
交通控制系统与诱导系统的协同可以实现两系统功能的互补,节约路网成本,促使交通系统的运行朝着有序高效的方向发展,而协同模式的......
在机器学习研究领域,对不平衡的数据建立分类模型一直都是难题,因为模型会偏向于多数类样本的特征,使少数类样本很难被识别。从数......
回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数......
采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通......
1问题的提出计算机辅助教学是信息技术影响数学教学的主要方式之一,凭借其直观、方便、存储量大等优点已经受到广泛的欢迎.所谓计......