基于矢量量化的强化学习及其在机器人行为学习中的应用

来源 :高技术通讯 | 被引量 : 0次 | 上传用户：loserlu

【摘要】

：

针对强化学习（RL）中状态空间过大所引起的学习时间过长或算法难于收敛等问题，提出了一种基于矢量量化（VQ）技术的表格型强化学习方法——VQRL方法，该方法用矢量量化器的码书矢量来逼

【作者】

：

段勇伊婧张永赫徐心和

【机构】

：

沈阳工业大学信息科学与工程学院,东北大学信息科学与工程学院

【出处】

：

高技术通讯

【发表日期】

：

2011年2期

【关键词】

：

强化学习(RL) 矢量量化(VQ) 码书 Q(λ)学习自组织特征映射 reinforcement learning （RL） vector quantiza

【基金项目】

：

国家青年科学基金（60905054）资助项目.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对强化学习（RL）中状态空间过大所引起的学习时间过长或算法难于收敛等问题，提出了一种基于矢量量化（VQ）技术的表格型强化学习方法——VQRL方法，该方法用矢量量化器的码书矢量来逼近强化学习的状态空间，从而有效地解决了强化学习的状态空间分割问题，并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射（SOFM）神经网络用于矢量量化，以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性，实验表明，此方法能够较好地解决复杂未知环境的机器人导航

其他文献

新型粉末冶金气门座的致密化过程研究

本论文主要研究了新型粉末冶金气门座的致密化过程的规律。致密化是制造粉末冶金产品过程中的一个非常重要的环节，致密化效果的好坏直接影响到粉末冶金产品质量。

期刊

粉末冶金致密化研究

径向驱动式啮合电机结构设计与静态转矩分析

针对机器人系统对驱动电机的启动性能和空间适应性的要求，设计了一种径向驱动式啮合电机结构。该电机利用3个定子和1个转子问磁阻的变化将电能转化为机械能，驱动转子在十字滑块

期刊

径向驱动式啮合电动机摆线机构有限元方法磁链特性静态转矩radial driving meshing motor cycloid machine f

浅析如何做好技工学校班主任工作

近年来，我国技工教育发展态势良好，成就十分显著。然而，由于学生管理工作相对滞后等各方面的原因，技工学校的工作还存在一些问题，对班主任工作提出了严峻挑战。本文拟从技工学校学

期刊

技工学校班主任研究

卧式下肢康复机器人主动柔顺控制实验研究

为保证下肢运动功能障碍患者在康复训练中的安全性和舒适性，利用力反馈信息采用阻抗控制原理设计了康复机器人系统的控制器，通过调整末端位置与力之间的关系使机器人具有一定的

期刊

卧式下肢康复机器人主动柔顺控制阻抗控制实验研究horizontal lower limbs rehabilitative robot active c

基于虚拟现实的一对多远程康复训练机器人监控系统

针对国内传统的一对一的康复训练不能满足日益增长的康复训练需求的问题，研究设计了基于虚拟现实的网络化远程康复训练机器人系统。该系统引入虚拟现实技术使康复训练界面生动

期刊

康复训练远程监控虚拟现实遥操作机器人rehabilitation training remote monitor virtual reality

变长存储块Hash树完整性校验方法

针对Hash树方法校验存储器完整性代价大的问题，提出了一种新的基于Hash树的检验方法——变长存储块Hash树（VB-HTree）方法。它基于程序访问的局部性特征，按存储块的访问频率将存储

期刊

完整性校验存储器HASH树重放攻击模拟器integrity verification memory Hash tree replay attac

基于质点-弹簧模型的血管变形研究

针对目前血管介入手术培训系统中将血管作为刚体的现状，提出一种基于质点．弹簧模型的柔性体建模方法，用于模拟血管介入手术培训中血管的形变。为了提高模拟精度，利用有限元模型确

期刊

血管变形质点-弹簧有限元刚度矩阵手术培训vascular deformation mass-spring finite element stif

我国物流企业纳税筹划的风险控制

在市场经济条件下，物流企业的任何经济活动都存在一定的风险，都需要一定的成本、费用支出，物流企业纳税以及纳税筹划活动也不例外，因此，物流企业需要注意防范控制企业的纳税筹划的

期刊

物流企业纳税筹划风险控制

基于改进粒子群算法的分布式天线系统跨层功率分配方案

结合数据链路层的队列状态信息和物理层的信道状态信息定义了系统的吞吐量系数和公平性系数，建立了分布式天线系统跨层功率分配的离散速率集优化模型。对粒子群优化算法的初始

期刊

功率分配分布式天线系统(DAS)跨层优化改进粒子群算法(IMPSO)power allocation distributed antennas sys

基于非线性理论的钢筋混凝土梁在ANSYS的应用

摘要：对于负载混凝土梁的ANSYS非线性分析，基于四道纤维布加固钢筋混凝土试验T梁为例详细的分析了加载前后T梁应变的变化情况；将ANSYS计算值与实测值进行比较，结果表明该方法精度较高；分析表明ANSYS在分析纤维布加固梁的过程中是可行的，并且加固效果颇佳。　　关键词：ANSYS 纤维布加固　　1 有限元法的简介　　有限元分析法起源于20世纪50年代，经过几十年的发展，如今已广泛应用于核工业、石

期刊

ANSYS纤维布加固

基于矢量量化的强化学习及其在机器人行为学习中的应用

与本文相关的学术论文