策略搜索相关硕士博士期刊学术论文

策略搜索相关论文

基于分布式强化学习的智能体连续控制技术研究及系统实现

深度强化学习凭借着强化学习的决策能力和深度学习的感知能力,实现了从输入到输出的端对端的学习方式,对于解决复杂的无人设备控制......

学位

连续控制任务分布式强化学习重要性采样并行训练策略搜索

强化学习研究进展及其在电脑围棋的应用

在取得电脑围棋突破的AlphaGo系统中,强化学习起到了重要作用.本报告简要介绍国内外强化学习的研究进展,重点关注强化学习中的状态......

会议

电脑围棋强化学习状态表示奖赏设计策略搜索终身学习

蛋白质组学质谱数据深度解析中的母离子快速灵敏检测

基于质谱数据的蛋白质鉴定已经成为蛋白质组学中的基础技术，而母离子检测是深度解析鸟枪法蛋白质组学质谱数据的第一步，这一步非常基......

学位

蛋白质组学串联质谱母离子检测多元自适应回归样条策略搜索

基于神经网络的安控策略搜索方法

针对“在线预决策、实时匹配”的控制方式中,安控策略搜索速度较慢的问题,提出一种基于神经网络的安控策略搜索方法.该方法利用神......

会议

神经网络策略搜索搜索结果计算网络自学习能力在线预决策自我修正样本

一种基于面向对象技术的稳控策略通用描述方法

本文针对稳控策略表现形式多样、通用性差的问题,分析了典型的省级以上区域电网的稳控策略,结合稳控装置的策略搜索逻辑,总结稳控......

会议

面向对象技术策略搜索面向对象方法典型结构应用功能形式多样稳控系统区域电网

一种基于条件生成对抗网络的模型化策略搜索方法

模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂......

期刊

条件生成对抗网络模型化强化学习策略搜索状态转移函数环境模型 conditional generative adversarial network mod

一个基于增强学习算法的路由模型

由于Internet的不断发展，现有的路由算法为适应不同的网络要求，从一开始的RIP、OSPF、BGP等几种，衍生出很多新的适用于特殊网络的路由......

期刊

增强学习路由模型策略搜索 QOS路由 Reinforcement learning Routing model Policy search QoS r

基于参数探索的期望最大化策略搜索

针对随机探索易于导致梯度估计方差过大的问题，提出一种基于参数探索的期望最大化（Expectationmaximization，EM）策略搜索方法．首先，将策......

期刊

策略搜索强化学习参数空间探索期望最大化重要采样 Policy search reinforcement learning parameter sp

基于卷积神经网络算法的机器人系统控制

随着计算机技术的不断成熟和数据分析技术的不断完善,近年来突出机器深度学习功能的智能算法取得重大突破。其中以卷积神经网络为......

期刊

机械臂深度强化学习策略搜索卷积神经网络

增强学习中的直接策略搜索方法综述

对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度......

期刊

增强学习策略搜索策略梯度

一种基于贪心算法的紧急控制策略优化搜索方法

间歇式能源接入、全国电网互联、在线运行保护与控制需求等多重因素对电网紧急控制策略搜索提出了新的要求。为此提出了一种基于贪......

期刊

EEAC量化理论紧急控制贪心算法策略搜索

基于增强学习的灵巧手控制算法及其应用

灵巧手操作是极具挑战的机器人控制任务之一,并且至今仍存在大量问题尚未解决。本文针对机器人灵巧手操作中抓取任务,以实际Baxter......

学位

增强学习策略搜索灵巧手操作跟踪-学习-检测

基于强化学习的移动机器人路径规划研究综述

路径规划能够让机器人在移动过程中高效准确地避开障碍物。在分析常用路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行......

期刊

移动机器人路径规划强化学习值函数策略搜索

一种不稳定环境下的策略搜索及迁移方法

强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模......

期刊

强化学习策略搜索策略迁移不稳定环境公式集

基于深度强化学习的机械臂卷积神经网络控制策略研究

家庭服务机器人作为机器人应用领域的重要组成部分,由于其在执行家务劳动时具有任务种类繁多且不可预知等特点,因此对于算法的适应......

报纸

机械臂深度强化学习策略搜索卷积神经网络端对端控制

策略梯度增强学习的理论、算法及应用研究

增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增......

学位

增强学习策略梯度策略搜索机器学习 Markov决策过程月球车部分可观测Markov决策过程先验知识多轮协调

基于高斯过程的强化学习算法的研究及实现

强化学习(Reinforcement Learning)是一种重要的机器学习方法,在人工智能领域有着举足轻重的地位。强化学习算法又分为有模型的强......

学位

强化学习高斯过程回归期望成本策略搜索三级倒立摆

最优控制策略搜索工具(OCDT)

电力系统最优控制策略搜索工具能够在给定的电力系统典型方式下 ,根据事先设定的电网关键线路潮流、预想故障集、候选控制措施代价......

期刊

稳定控制定量分析暂态稳定分析静态安全分析策略搜索

看过本文同时还关注