强化学习及其在自主机器人行为学习中的应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:qq279301979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,强化学习发展迅速,国内外的学者在其理论、方法和思想技术方面进行了广泛的研究.由于强化学习研究的核心问题是算法的收敛速度,对提高了强化学习的速度和效率,国内外学者提出了各种方法.然而,已有的研究仍然存在一些局限性:首先,研究大多早在结构化的环境中进行的;其次,已有的方法对所有的状态的值函数要一部记忆,随着强化学习的进行会导致不断增长的状态动作空间和记忆容量;再次,这些方法没有考虑强化学习存在的风险性和学习经验利用率低的问题.
其他文献
在无线传感器网络(WSN)中,信号的传播状态鉴别和节点间的鲁棒定位成为WSN的关键技术。在室内环境下,由于障碍物的反射和衍射,传播信号的强度会因此削弱,从而产生非视距误差。
该文分析了CCD摄像头的成像原理,并以此为基础进一步介绍了数字摄像头的工作原理. 在研究USB的结构和特点的基础上,采用了USB技术对数字图像进行传输,避免了采用PCI造成的硬
该论文的主要目的是在制造执行系统的框架中,研究制造执行系统中性能分析功能的代表--控制回路性能评估的基本算法及其在流程工业控制现场的应用.在该论文的开始部分,就对制
该文课题作为国家自然科学基金课题—非确定性环境下层次型生产计划决策系统(70002009)和教育部留学归国人员基金"复杂工业系统的模糊建模与智能优化"的重要组成部分,以实际
车辆车型自动识别系统是近年来发展起来的计算机视觉与模式识别技术在智能车辆管理领域应用的重要研究课题之一,主要用于对出入园和停车场车辆实行监控管理,是提高车辆识别率
该报告研究库存管理和随机规划中的一些问题.在第一章我们研究了在定时信用支付条件下的EOQ问题.在同样的模型环境中,得到了当N≥2时,Carlson和Rousseau的猜想(*)不成立的充
演化算法是一种基于生物进化机制的随机搜索算法,其典型应用是规划问题,比如组合优化.若离散变量数为n,组合最优化问题便成为e数量级;当n很大时,组合最优化问题则成为实际上
该文提出的人脸检测方法采用了肤色检测和人脸检测相结合的思路.肤色是人脸模式比较稳定的特征,它不受人脸姿态和大小的影响,经过适当的处理,受光照的影响也比较小,适合对人
该文对彩色序列图像的人脸检测和识别进行了深入研究,提出了一个完整、新颖的检测识别算法,并将其实现.该算法从结构上可分为两大部分,即人脸检测和人脸识别.人脸检测又可以
该文致力于彩色图像可伸缩性压缩编码研究.在图像分割和人物对象提取这个问题上,研究通用彩色图像边缘检测和种子区域生长相结合的图像分割、基于小波系数特征的粗糙集彩色文