强化学习维数灾问题解决方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:kerrytony
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难和优化强化学习方法。同时,在所提理论的基础上,以Eclipse为开发平台,在SWT的基础上,开发了俄罗斯方块游戏,将其作为算法的实验平台,从而对相应的方法进行实验效果的验证。同时又将强化学习理论应用到Ad Hoc网络路由选择算法中,集中解决了路由效率、能源开销、安全性等相关问题。本文的主要研究成果概括为以下四个方面:(1)分析研究了强化学习中的“维数灾”问题,并在此基础上提出了一种大规模离散空间中的高斯强化学习方法。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。(2)针对强化学习的“维数灾”问题和算法收敛速度过慢的困难,提出了一种基于动作分值的分层强化学习奖赏优化方法。使用了动作分值和分层思想的强化学习方法可以达到优化奖赏函数和加快收敛速度的效果。实验结果表明,使用了该方法的强化学习算法能显著提高算法的收敛速度和实验效果。(3)以俄罗斯方块游戏为实验平台,将上述方法应用于其中,分析各个算法的优劣和各类参数的性能比较,并提出可以进一步改进的实验效果的若干思想。(4)以Ad Hoc网络为应用平台,将相关的强化学习方法应用于Ad Hoc网络路由选择过程中,从综合的角度来解决Ad Hoc网络中存在的路由效率、能源开销、安全性、自适应性等路由选择问题。
其他文献
人工情感建模在人机交互、教育、拟人机器人、娱乐等领域具有广泛的应用前景和经济价值,目益引起学术界和产业界的高度重视。很多大学和公司成立了人工情感研究组,如美国的麻
安全协议提供安全服务,是构建网络安全的基石。随着网络的迅速发展,越来越多的密码技术被应用到安全协议中,保证了网络不同程度的安全性。然而各种针对协议的攻击技术也不断
在信息检索、传感器数据和图像识别等领域中,存在着大量不确定性的数据。当把这些数据存储到数据库时,要求数据库有对其进行处理的能力,而传统的数据库都是确定性的,不能对不
Web应用是应用最广泛、最重要的计算机应用之一。基于Java EE的Web应用是实践较多,发展较迅速的一支。随着基于Java EE的Web应用的发展,很多框架被开发出来并应用。基于Java EE
排课是高等院校教学管理中必不可少的常规工作,同时也是整个教学管理中最复杂、最繁重的工作之一。排课问题普遍存在于各类高等院校当中,无论其规模大小、学科多少,都要涉及
与国际象棋相比较,中国象棋具有更大的棋子运动空间,并且中国象棋的着法更加特殊、棋局变化也更加复杂。在中国象棋计算机博弈中,对于设计一款优秀的博弈软件而言,最费时的就
能量利用效率是衡量无线网络性能的重要指标之一。近年来,随着无线网络技术的成熟及针对传输质量要求的不断提高,如何利用现有的网络资源来减少传输开销、提高能量利用效率已
随着中国越来越多的人拥有私人汽车,车载导航系统逐渐进入人们日常生活。虽然目前国内使用车载导航系统还不是太多,但其巨大的市场潜力引起了广泛重视。车辆导航系统具有巨大
自美国军方实施的“DSN计划”开始,无线传感器网络(Wireless SensorNetwork,WSN)[1]已经走过了近40年的发展历程。在这个过程中,WSN的应用在民用和军事领域得以不断推广,并获得
近年来,随着信息技术的发展,数据存储量持续增长。专家们认为,目前信息技术已经进入以存储为核心的发展阶段。随着存储软硬件规模的扩大,存储设备的兼容性问题成为目前用户最