搜索筛选:
搜索耗时2.4778秒,为你在为你在102,285,761篇论文里面共找到 13 篇相符的论文内容
类      型:
[学位论文] 作者:章宗长,, 来源:中国科学技术大学 年份:2012
部分可观察的马氏决策过程(partially observable Markov decision process,简称POMDP)为主体在部分可观察的随机环境中的序列决策问题提供了一个通用的数学模型。POMDP模型...
[期刊论文] 作者:章宗长,陈小平,, 来源:软件学报 年份:2013
许多不确定环境下的自主机器人规划任务都可以用部分可观察的马氏决策过程(partially observableMarkov decision process,简称POMDP)建模.尽管研究者们在近似求解技术的设计...
[期刊论文] 作者:章宗长, 王艺深,, 来源:计算机教育 年份:2019
分析当前软件工程教学存在的问题,提出以开源项目为驱动的软件工程课程改革,并分别从项目的准备、设计、实施3个阶段阐述具体的培养方法。...
[期刊论文] 作者:林嘉豪, 章宗长, 姜冲, 郝建业,, 来源:计算机学报 年份:2020
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数...
[期刊论文] 作者:徐进, 刘全, 章宗长, 梁斌, 周倩,, 来源:计算机学报 年份:2017
近年来,深度强化学习已经成为人工智能领域一个新的研究热点。深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题。...
[期刊论文] 作者:陈子璇,章宗长,潘致远,张琳婧,, 来源:软件学报 年份:2021
近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩......
[期刊论文] 作者:章晓芳, 章宗长, 谢晓园, 周谊成,, 来源:计算机学报 年份:2016
随机测试和划分测试是两种重要的测试方法,关于两者在失效检测能力和效率方面的比较一直是软件测试领域的研究热点之一.适应性随机测试是对随机测试的一种增强,通过实现测试...
[期刊论文] 作者:刘全,翟建伟,钟珊,章宗长,周倩,章鹏,, 来源:计算机学报 年份:2017
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破....
[期刊论文] 作者:翟建伟, 刘全, +章宗长, 钟珊, 周倩, 章鹏,, 来源:计算机学报 年份:2016
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破...
[期刊论文] 作者:钟珊,刘全,傅启明,章宗长,朱斐,龚声蓉,, 来源:计算机研究与发展 年份:2015
针对基于查询表的Dyna优化算法在大规模状态空间中收敛速度慢、环境模型难以表征以及对变化环境的学习滞后性等问题,提出一种新的基于近似模型表示的启发式Dyna优化算法(a heuristic Dyna optimization algorithm using approximate model representation,HDyna......
[期刊论文] 作者:姜冲,章宗长,陈子璇,朱佳成,蒋俊鹏,, 来源:计算机科学 年份:2021
模仿学习提供了一种能够使智能体从专家示范中学习如何决策的框架。在学习过程中,智能体无需与专家进行交互,也不依赖于环境的奖励信号,而只需要大量的专家示范。经典的模仿学习方法需要使用第一人称的专家示范,该示范由一个状态序列以及对应的专家动作序列组成......
[期刊论文] 作者:陈松,章晓芳,章宗长,刘全,吴金金,闫岩, 来源:计算机学报 年份:2019
深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,在深度Q网络及其改进算法中基本使用静态的跳帧方法,即动作被重复执行固定的次数.另外,优先级经验...
[期刊论文] 作者:刘全,+翟建伟章宗长钟珊周倩章鹏徐进,, 来源:计算机学报 年份:2018
深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直...
相关搜索: