逆向增强学习和示教学习算法研究及其在智能机器人中的应用

被引量 : 0次 | 上传用户:yyj55555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,示教学习一直是机器人研究领域中极富挑战性的研究课题之一在示教学习中,直接估计状态-动作映射往往无法考虑长期性影响。因此,研究者倾向于将示教学习过程分为估计环境参数和求解最优控制器两个步骤,间接地逼近示教策略。在若干环境参数表达方法中,回报函数具有泛化能力强、迁移性好和所需调节参数少等优点。目前,基于回报函数估计的示教学习正成为示教学习中应用最广泛的方法之一。回报函数的估计,又称为逆向增强学习,是指给定智能体行为、状态和环境动态模型,在马尔可夫决策过程模型中求解回报函数的问题。但是,基于回报函数估计的示教学习当前还存在几个需要解决的问题:(1)回报函数的估计过程无法序贯进行。(2)回报函数的学习结果只能提供点估计信息。(3)回报函数估计的性能对示教噪声敏感。针对上述问题,本文尝试在序贯估计和贝叶斯框架下对逆向增强学习问题进行了理论研究。首先,本文从最大边际原则和约束一致性原则两个方面研究了序贯化逆向增强学习算法,从而为逆向增强学习的序贯算法研究提供了理论支持。基于最大边际原则,本文提出了增量式逆向增强学习方法。该方法将学习建模为二项分类问题,然后通过拟可加序贯学习框架的思想进行回报函数的序贯重估计。算法以序列化的方式处理依次到来的观察数据。基于约束一致性原则,本文提出了松弛投影逆向增强学习方法。本方法将回报函数的学习问题建模为具有非线性约束的可行区域问题。其主要思想是通过松弛投影算法序列化地将回报函数估计值对特定约束平面进行松弛投影。本方法避免了在回报函数估计过程中调用耗时的增强学习子过程。为了减少计算量,本文还讨论了约束约减方法。另外本文分别对上述两种方法进行了收敛性质的分析。其次,为了解决当前算法中对回报函数仅进行点估计的局限性,本文在贝叶斯框架下将回报函数扩展到连续空间的分布形式并对回报函数进行分布估计。首先,本文基于贝叶斯框架引入了核方法,提出了基于高斯过程的回报函数建模方法。通过回报函数的高斯过程建模,本文将已有的逆向增强学习方法进行了扩展,提出了基于高斯过程的逆向增强学习算法。该算法不仅给出了回报函数估计值的置信度信息、,还通过核方法定义了学习特征。这些性质提高了基于逆向增强学习的示教学习在应用中的实用性。然后,针对基于逆向增强学习的示教学习中示教策略存在噪声的问题,本文提出了基于贝叶斯logistic回归和变分近似方法的逆向增强学习算法。其主要思想是通过示教轨迹构造示教样本集将逆向增强学习的分类问题建模为贝叶斯logistic回归问题。变分贝叶斯方法被用来对后验分布进行近似求解。贝叶斯logistic回归方法对数据的抗噪特点为本算法带来了良好的对示教数据的鲁棒性。最后,本文讨论了逆向增强学习方法在智能机器人行为样本评测问题中的应用。针对地面自主机器人评测系统中评测标准难以定义的问题,本文提出了一种基于倾向性分析的智能系统评测方法。该方法首先采用了基于主元分析法的特征提取方法对地面自主机器人行为样本数据进行了预处理,然后利用逆向增强学习算法、策略不变条件下的回报函数变形定理和线性子空间距离定义得到地面自主机器人行为的性能测度,从而定量地比较了示教样本与评测样本之间的差异。评测结果证明了该方法有效解决了地面自主机器人行为样本与示教样本之间难于定量比较的难题。
其他文献
为消费者提供投诉途径并对消费争端予以有效裁决是一个重要的消费者权益保护内容。介绍和比较了金融服务水平较高的英国、美国、澳大利亚、新加坡和香港特区的银行消费者投诉
心血管疾病能否找到可靠的临床标志物,并且可在外周血液循环中常规检测,值得探讨。最近发现,微小核糖核酸(microRNAs,miRNAs)能够稳定存在于血液循环中。基于miRNAs的稳定性
三江源生态移民是因草地生态系统退化对人类生存产生影响,同时考虑到三江源地区生态战略安全而进行的人口空间转移活动,移民在安置方式上多采取城镇化安置的模式,这种安置模
目的:观察非剥脱点阵激光1 550nm治疗黄褐斑的疗效。方法:应用非剥脱点阵治疗黄褐斑(韩国lexel),波长:1550nm,密度:81%,能量:3~5J,治疗黄褐斑患者7例,每月一次,治疗1~3次,观察
目的研究婴幼儿腹泻病原微生物的检测方法,并分析检测结果。方法选取本院2017年10月至2018年9月收治的90例腹泻患儿作为研究对象,采集患儿的粪便标本进行病原微生物检测,统计
PCB钻头棒材无心磨削的加工过程是一个变化的、随机的复杂过程,加工过程中不断变化的参数决定着产品的精度,自动测量系统就是通过直接检测工件的加工状态来跟踪加工过程中每
岗位评价是衡量组织中各岗位相对价值的过程。岗位评价过程包括设计评价指标,选择评价方法,确定指标权重,处理评价数据等四个主要过程。在岗位评价的基础上建立岗位等级结构,
“恕道”思想是中国儒家思想的一个重要组成部分,是中华民族传统文化独具特色的精华,它一直贯穿于历史文化的长河中,作为仁道之方,成为了为人处世之道。“恕”字虽然不是孔子首次
中国工业化的不断推进,大量农村劳动力进城从事非农生产。农村劳动力的转移对农村经济的发展产生了深远的影响。当前中国处于二元经济体制转轨时期,农村劳动力转移,从事农业
<正> 萝卜的品种很多,其特征和特性有显著的差异,在不同地区和季节栽培萝卜,应严格选用不同的品种。青头萝卜称“地下人参”,生食清脆、熟食别具风味,有消积化滞,生津开胃之