基于矢量量化的强化学习及其在机器人行为学习中的应用

来源 :高技术通讯 | 被引量 : 0次 | 上传用户:loserlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学习的状态空间分割问题,并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射(SOFM)神经网络用于矢量量化,以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性,实验表明,此方法能够较好地解决复杂未知环境的机器人导航
其他文献
本论文主要研究了新型粉末冶金气门座的致密化过程的规律。致密化是制造粉末冶金产品过程中的一个非常重要的环节,致密化效果的好坏直接影响到粉末冶金产品质量。
针对机器人系统对驱动电机的启动性能和空间适应性的要求,设计了一种径向驱动式啮合电机结构。该电机利用3个定子和1个转子问磁阻的变化将电能转化为机械能,驱动转子在十字滑块
近年来,我国技工教育发展态势良好,成就十分显著。然而,由于学生管理工作相对滞后等各方面的原因,技工学校的工作还存在一些问题,对班主任工作提出了严峻挑战。本文拟从技工学校学
为保证下肢运动功能障碍患者在康复训练中的安全性和舒适性,利用力反馈信息采用阻抗控制原理设计了康复机器人系统的控制器,通过调整末端位置与力之间的关系使机器人具有一定的
针对国内传统的一对一的康复训练不能满足日益增长的康复训练需求的问题,研究设计了基于虚拟现实的网络化远程康复训练机器人系统。该系统引入虚拟现实技术使康复训练界面生动
针对Hash树方法校验存储器完整性代价大的问题,提出了一种新的基于Hash树的检验方法——变长存储块Hash树(VB-HTree)方法。它基于程序访问的局部性特征,按存储块的访问频率将存储
针对目前血管介入手术培训系统中将血管作为刚体的现状,提出一种基于质点.弹簧模型的柔性体建模方法,用于模拟血管介入手术培训中血管的形变。为了提高模拟精度,利用有限元模型确
在市场经济条件下,物流企业的任何经济活动都存在一定的风险,都需要一定的成本、费用支出,物流企业纳税以及纳税筹划活动也不例外,因此,物流企业需要注意防范控制企业的纳税筹划的
结合数据链路层的队列状态信息和物理层的信道状态信息定义了系统的吞吐量系数和公平性系数,建立了分布式天线系统跨层功率分配的离散速率集优化模型。对粒子群优化算法的初始
摘要:对于负载混凝土梁的ANSYS非线性分析,基于四道纤维布加固钢筋混凝土试验T梁为例详细的分析了加载前后T梁应变的变化情况;将ANSYS计算值与实测值进行比较,结果表明该方法精度较高;分析表明ANSYS在分析纤维布加固梁的过程中是可行的,并且加固效果颇佳。  关键词:ANSYS 纤维布 加固  1 有限元法的简介  有限元分析法起源于20世纪50年代,经过几十年的发展,如今已广泛应用于核工业、石