强化学习维数灾问题解决方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：kerrytony

【摘要】

：

本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难

【作者】

：

周文云

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2009年期

【关键词】

：

强化学习维数灾高斯过程分层强化学习动作分值 Ad Hoc网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难和优化强化学习方法。同时,在所提理论的基础上,以Eclipse为开发平台,在SWT的基础上,开发了俄罗斯方块游戏,将其作为算法的实验平台,从而对相应的方法进行实验效果的验证。同时又将强化学习理论应用到Ad Hoc网络路由选择算法中,集中解决了路由效率、能源开销、安全性等相关问题。本文的主要研究成果概括为以下四个方面:(1)分析研究了强化学习中的“维数灾”问题,并在此基础上提出了一种大规模离散空间中的高斯强化学习方法。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。(2)针对强化学习的“维数灾”问题和算法收敛速度过慢的困难,提出了一种基于动作分值的分层强化学习奖赏优化方法。使用了动作分值和分层思想的强化学习方法可以达到优化奖赏函数和加快收敛速度的效果。实验结果表明,使用了该方法的强化学习算法能显著提高算法的收敛速度和实验效果。(3)以俄罗斯方块游戏为实验平台,将上述方法应用于其中,分析各个算法的优劣和各类参数的性能比较,并提出可以进一步改进的实验效果的若干思想。(4)以Ad Hoc网络为应用平台,将相关的强化学习方法应用于Ad Hoc网络路由选择过程中,从综合的角度来解决Ad Hoc网络中存在的路由效率、能源开销、安全性、自适应性等路由选择问题。

其他文献

基于粒子系统的情感建模研究

人工情感建模在人机交互、教育、拟人机器人、娱乐等领域具有广泛的应用前景和经济价值,目益引起学术界和产业界的高度重视。很多大学和公司成立了人工情感研究组,如美国的麻

学位

人工情感粒子系统OCC模型

串空间模型及其认证测试方法的扩展与应用

安全协议提供安全服务,是构建网络安全的基石。随着网络的迅速发展,越来越多的密码技术被应用到安全协议中,保证了网络不同程度的安全性。然而各种针对协议的攻击技术也不断

学位

串空间模型认证测试方法密码学猜测攻击

概率数据库及有效查询技术的研究

在信息检索、传感器数据和图像识别等领域中,存在着大量不确定性的数据。当把这些数据存储到数据库时,要求数据库有对其进行处理的能力,而传统的数据库都是确定性的,不能对不

学位

概率数据库隶属函数模糊查询聚集函数

Java EE Web应用系统的结构及性能研究

Web应用是应用最广泛、最重要的计算机应用之一。基于Java EE的Web应用是实践较多，发展较迅速的一支。随着基于Java EE的Web应用的发展，很多框架被开发出来并应用。基于Java EE

学位

Java EEWeb应用系统运行性能

高校排课系统的研究

排课是高等院校教学管理中必不可少的常规工作,同时也是整个教学管理中最复杂、最繁重的工作之一。排课问题普遍存在于各类高等院校当中,无论其规模大小、学科多少,都要涉及

学位

排课系统PCA动态规划优先级广度优先回溯

瞬时差分方法在中国象棋计算机博弈中的应用

与国际象棋相比较,中国象棋具有更大的棋子运动空间,并且中国象棋的着法更加特殊、棋局变化也更加复杂。在中国象棋计算机博弈中,对于设计一款优秀的博弈软件而言,最费时的就

学位

中国象棋计算机博弈瞬时差分方法神经网络专家棋谱评价函数

基于网络编码的无线网络广播能量效率研究

能量利用效率是衡量无线网络性能的重要指标之一。近年来,随着无线网络技术的成熟及针对传输质量要求的不断提高,如何利用现有的网络资源来减少传输开销、提高能量利用效率已

学位

网络编码无线传输能量效率广播

路径规划算法研究与其在车载导航系统中的应用

随着中国越来越多的人拥有私人汽车,车载导航系统逐渐进入人们日常生活。虽然目前国内使用车载导航系统还不是太多,但其巨大的市场潜力引起了广泛重视。车辆导航系统具有巨大

学位

导航系统蚁群算法最短路径空间索引

传感器网络中节点自身定位方法的研究

自美国军方实施的“DSN计划”开始，无线传感器网络(Wireless SensorNetwork,WSN)[1]已经走过了近40年的发展历程。在这个过程中，WSN的应用在民用和军事领域得以不断推广，并获得

学位

无线传感器网络节点定位跳数DV-HopRSSI

存储阵列兼容性测试的研究

近年来,随着信息技术的发展,数据存储量持续增长。专家们认为,目前信息技术已经进入以存储为核心的发展阶段。随着存储软硬件规模的扩大,存储设备的兼容性问题成为目前用户最

学位

存储兼容性配对组合故障诊断探索性测试

强化学习维数灾问题解决方法研究

与本文相关的学术论文