部分可观察Markov决策过程中基于内部状态的强化学习研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:camel_xz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。尽管强化学习技术已有很多研究成果和应用范例,但是还有许多没有解决的问题,不完全感知问题就是其中一个难点问题。目前对于这类问题一般采用POMDP模型进行求解。但是,由于求解POMDP模型的计算复杂度高,所以只能处理规模较小简单的问题。本文分别在模型优化和算法改进等方面做了一些研究,论文的主要工作如下:首先,在POMDP模型中引入Agent的内部状态,利用学习的历史经验值,提出一种基于内部状态的POMDP强化学习改进模型。通过对实例问题策略的描述,实现了降低策略复杂度和学习随机性的目的。其次,在模型改进的基础上,进一步引入资格迹(the eligibility trace)的思想,并提出了相应的基于策略梯度的近似强化学习算法:PGI-POMDP算法,降低了近似计算的复杂度,提高了Agent学习的效率。最后,把上述思想应用到多Agent系统中,提出了多Agent系统下的策略梯度算法:MIS-GPOMDP算法,实验结果表明学习效率和时间空间开销都有改进。
其他文献
因特网作为第四媒体的出现,由于具有开放、自由、信息传播速度快、信息传播范围广等特点,而倍受世人关注。企业和政府部门都纷纷在因特网上设立自己的门户网站。在众多的门户网
身份认证作为信息系统安全的第一道屏障,其重要性不言而喻。随着网络化的发展、计算机计算能力的大大提高、版权意识的增强等,传统的基于用户名密码对的认证方法体现出越来越
特征提取在模式识别领域占有重要的地位,它是人脸识别系统中最关键的一个环节。目前,关于特征提取的方法涌现了大量的经典算法,有基于线性与非线性的特征提取方法。其中得到广泛
移动代理是能够在异构网络的主机之间自主地进行迁移的程序。它能自己决定何时迁移到何地并且克隆自己或者产生子代理来协作完成复杂的用户任务。移动代理可以将个性化的计算
随着计算机、网络技术的发展,控制技术逐渐渗透到大型交通、航天、工农业生产、楼宇管理以及智能家庭等领域。传统控制器存在不兼容、内部结构复杂、升级和二次开发困难、技
离散曲面上准确曲率估算是一个带有多种应用涉及多种学科的重要课题,如计算机图形学、计算机可视化和几何建模[1][2][3][4][5]等。曲率和它相关的主方向矢量域具有在刚体变换下不变的特性,曲率是脊的指示剂,可以应用于像图形分析、图像识别、对象提取、自适应平滑、不规则网格各向异性的光顺和纹理映射。曲面的曲率依赖于二次微分量,对于离散数据的曲率估算对噪声极其敏感。因此,对于离散数据的曲率估算的早期工
舌诊是中医望诊中的重要项目,也是中医学中最常用、最有应用价值、最有特色的诊法之一,因此中医舌诊客观化研究对宏扬我国传统医学具有重大的意义。本文综合使用了信息融合、
随着网络技术的快速发展,网络入侵事件也逐渐的增多。入侵检测是网络安全防御体系中继防火墙之后又一项重要的安全技术,可以在系统入侵的全过程对系统进行实时检测与监控。网
存储网格提供了对存储数据进行快速统一的查看管理能力,提供更高的数据保护能力。存储网格所具有的这些特性,使得存储网格技术被普遍认为是存储领域中前途最为广阔的技术之一
在互联网的大潮下,各个领域都在积极地开展自己的互联网业务。面对硬件资源紧缺以及利用率不高的问题,大家需要找到一个合理可用的方法来解决这些问题。云计算就是在这样背景下