奖励函数相关硕士博士期刊学术论文

奖励函数相关论文

基于深度强化学习的机器人导航算法研究

移动机器人穿越动态密集人群时，由于对环境信息理解不充分，导致机器人导航效率低且泛化能力弱。针对这一问题，提出了一种双重注意深度......

期刊

深度强化学习奖励函数状态价值网络双重注意力

基于深度强化学习的路径规划算法研究

针对现有的路径规划算法效率低的问题，根据奖励函数和多层感知机提出一种基于深度强化学习的路径规划算法。考虑到环境的复杂程度，为......

期刊

路径规划深度Q网络多层感知机奖励函数动作选择

基于深度强化学习的机械臂路径规划研究

近些年来,机械臂随着工业化的发展已经逐渐在人们的日常生活中得到广泛应用,但同时对机械臂的工作环境、工作任务等要求也高了不少......

学位

深度强化学习机械臂路径规划旋量法奖励函数

基于深度强化学习的自动驾驶系统设计与实现

自动驾驶技术一直是人工智能领域研究的热点之一。传统模块化方法受限于驾驶环境的复杂,难以做出系统性设计;基于监督学习的深度神......

学位

自动驾驶深度强化学习异构融合特征 DDPG 概率图模型奖励函数

基于强化学习的泊车轨迹规划研究

随着车辆智能化程度的提高,自动泊车技术逐渐成为研究热点。目前,由于泊车环境恶劣、驾驶员经验不足,导致狭小空间内泊车困难,因此......

学位

强化学习轨迹规划奖励函数实车测试

基于消息反馈与强化学习的节能路由算法

针对中小型规模水下无线传感器网络中存在的节点能量消耗不均衡、网络生命周期较短的问题,提出一种基于强化学习(RL)与消息反馈机......

期刊

水下传感器网络强化学习能量有效奖励函数反馈消息路由效率空洞节点网络生命周期

基于强化学习未知环境下的机器人导算法

关于移动机器人的研究始终绕不开导航控制,目前有很多优秀的算法应用于机器人导航,取得了众多成果,但这些算法大多依赖环境地图或......

学位

移动机器人端到端导航算法深度强化学习探索策略奖励函数

基于深度强化学习的智能车高速公路合流区换道决策研究

中国高速公路里程已经突破14万公里,稳居世界第一,但与此同时交通事故率也高居不下。合流区的交通环境复杂,易出事故,是高速公路车......

学位

智能驾驶汽车合流区换道深度强化学习奖励函数决策

基于深度强化学习的蒸汽发生器水位控制

针对蒸汽发生器精确建模困难和低工况下控制性能差的问题,本文提出了一种基于深度强化学习优化的智能分层(IH)控制器.使用串级PI控......

期刊

蒸汽发生器深度强化学习深度确定性策略梯度水位控制状态信息奖励函数评价网络动作网络

基于区块链的线上教育管理系统的设计与实现

互联网+模式的飞速发展,为线上教育聚集更多优质资源提供了便利条件,使其摆脱了时间和空间的束缚。近年来,尤其是新冠疫情以来,相......

学位

区块链共识机制奖励函数自私挖矿马尔科夫决策过程

基于深度强化学习的车辆自动驾驶拟人决策

自动驾驶是车辆工程技术发展的重大变革,其在有效提高道路安全性的同时,对于缓解交通拥堵、减少环境污染具有重要作用。从自动驾驶......

学位

自动驾驶拟人决策深度强化学习驾驶风格奖励函数

基于强化学习的情感对话回复生成算法研究

近年来,随着深度学习算法的不断更新改进与计算机硬件设备计算能力的提高,聊天机器人的研究也取得了很大的进展和突破。生成式的聊......

学位

对话生成情感对话强化学习奖励函数安全回复

基于深度强化学习的束流偏移校准研究

核物理技术推动了当代国防和能源技术的快速发展,但核废料的不当处理导致放射性元素泄露而造成环境污染、癌症诱发等问题。质子直......

学位

束流偏移校准中等能量传输线深度强化学习奖励函数

基于强化学习的认知无线电网络频谱分配方法研究

随着移动互联网的快速发展和智能终端技术的不断更新,无线移动用户的数量在过去几年中不断增加。预计这种趋势将在未来几年内会一......

学位

认知无线电网络 Q学习动态频谱接入奖励函数博弈论

基于深度强化学习算法的空间漂浮基机械臂抓捕控制策略

针对空间漂浮基座机械臂抓捕非合作目标控制所基于的多体系统动力学模型难以精确建立的问题,基于深度强化学习算法的控制策略,提出......

期刊

DRL算法空间漂浮基机械臂非合作目标抓捕控制策略奖励函数 deep reinforcement learning algorithm free-floa

一种基于深度强化学习的SDN路由算法

摘要：为解决软件定义网络（SDN）中的流量工程（TE）问题，提出了一种深度强化学习路由（DRL-Routing）算法.该算法使用较全面的网络信息来表示......

期刊

软件定义网络(SDN) 流量工程(TE) 奖励函数深度强化学习路由(DRL-Routing) software defined network(SDN) tr

基于状态转移的奖励值音乐推荐研究

听音乐有助于纾解人们的压力,现已成为大众娱乐的一种重要方式.互联网的发展使人们听音乐变得方便,但同时也使得“信息过载”的问......

期刊

音乐推荐用户偏好状态转移奖励函数离散化 Music recommendation User preference State transition Re

基于强化学习的煤矸石分拣机械臂智能控制算法研究

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应......

期刊

选煤煤矸石分拣分拣机器人机械臂关节角状态控制强化学习奖励函数 DDPG算法 coal preparation coal gangue sorting

面向持续集成测试优化的强化学习奖励机制

持续集成环境下的测试存在测试用例集变化大、测试时间有限和快速反馈等需求,传统的测试优化方法难以适用.强化学习是机器学习的一......

期刊

持续集成测试测试用例优先排序测试用例历史执行信息强化学习奖励函数 continuous integration testing test case pr

基于改进自适应遗传算法的海洋平台管路优化设计方法

针对海洋平台管路系统设计周期长、效率低等问题,以平台管路优化布置为研究对象,以管段长度、弯头数和架设高度为控制目标建立数学......

期刊

海洋平台管路优化设计遗传算法奖励函数 offshore platform optimized piping design genetic algori

网格环境下的资源信用模型

主要解决网格环境下动态资源的管理问题.首次提出了资源信用的概念,通过资源信用描述资源的可靠性和动态性.初步定义了影响网格资......

期刊

信用模型资源预测启发式算法衰减函数奖励函数 credit model resource prediction heuristics algorith

基于深度强化学习的拟人化自适应巡航控制算法设计

自适应巡航控制(Adaptive Cruise Control System,ACC,下同)又称主动巡航控制。作为一种高级驾驶辅助功能,自适应巡航控制系统通过......

学位

自适应巡航控制拟人化驾驶深度Q网络算法分层强化学习最大熵逆向强化学习奖励函数

利用神经网络动力学实现基于模型的强化学习

<正>一般来说,让机器人在现实世界中自主行动是一件很困难的事情。即使具有昂贵的机器人和世界一流的研究人员,机器人仍然难以在复......

期刊

基于模型控制器无模型网络动力学强化学习奖励函数神经网络模型强化学习算法

基于深度强化学习的多模态医学图像配准

传统图像配准方法中,图像特征的表示和相似性测度的选择易受到人为因素的影响,不能准确地表征图像特征和配准图像的相似度,从而对......

期刊

图像配准强化学习表演者-评论家奖励函数前向推理 image registrationreinforcement learningactor-critic

结合神经网络和Q(λ)-learning的路径规划方法

Q-learning是一种经典的增强学习算法,简单易用且不需要环境模型;广泛应用于移动机器人路径规划。但在状态空间和动作空间较大时,......

期刊

路径规划神经网络强化学习移动机器人奖励函数

伯克利AI研究院利用反向课程学习,改善强化学习智能体

<正>众所周知,强化学习(RL)是一种强大的技术,它能够解决诸如移动(locomotion)、Atari游戏、赛车游戏以及机器人操作等复杂的任务,......

期刊

智能体强化学习算法奖励函数伯克利研究院

基于深度强化学习的自动泊车控制策略研究

目前汽车行业的发展重心正逐步由传统车辆向智能车辆转移,随之带来的是智能驾驶技术的迅速发展。自动泊车系统是智能驾驶技术的研......

学位

自动泊车运动学模型 DDPG 奖励函数硬件在环

CDCL SAT求解器中的分支变量启发式算法研究

命题逻辑公式的可满足性问题(即SAT问题)是人工智能和计算机科学领域的核心问题之一。1971年Stephen.Cook从算法时间复杂度的角度......

学位

SAT问题分支变量启发式算法变量活性奖励函数

看过本文同时还关注