基于梯度逼近方法的Markov系统及其在通信中的应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yueyue7373
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的迅猛发展和广泛应用,出现了大量的复杂随机动态系统,比如在通讯网络(Internet及无线网络),柔性制造,智能机器人,交通管理等领域。目前,该类系统的性能优化问题逐渐成为很多领域的研究热点。这些领域包括控制系统领域,运筹学领域,计算机科学领域以及人工智能领域等等。不同领域采用不同的方法来解决该问题,如控制系统领域的离散事件动态系统的摄动分析方法,运筹学领域的Markov决策过程理论,计算机科学和人工智能领域的强化学习(或神经元动态规划)方法。虽然这些方法对系统结构有着不同的描述,但这些方法都是围绕着同一个目的展开,即寻找一个“最好的策略”来优化系统的性能。近几年来,一种基于灵敏度观点的优化方法将以上不同领域的不同方法有机的统一起来。该方法以性能势理论为基础,通过两种性能灵敏度公式:性能差公式和性能导数公式,将摄动分析方法,Markov决策过程理论以及强化学习方法统一在同一框架下。该方法不仅可以基于模型采用理论计算的方法来寻找系统的最优策略,而且可以在系统模型参数未知的情况下基于一条样本轨道在线地改进系统性能。因而在某种程度上它解决了该类系统的“维数灾”和“模型灾”问题。到目前为止,该方法在自适应Markov报酬过程上的应用还没有被研究,本文在该方法的基础上,研究了自适应Markov报酬过程的灵敏度分析,得到了性能差和性能导数公式,以及在单样本轨道上性能导数的估计式。基于仿真的梯度逼近方法是基于一种可以基于单样本轨道在线的改进系统性能的梯度逼近方法。这个方法首先参数化策略。然后根据仿真出来的样本轨道估计出性能测度关于参数向量的梯度;最后再沿梯度的方向改进参数。利用参数化策略,减少了未知参数的个数,避开了“维数灾”的问题;通过仿真避开了“模型灾”的问题。参数的更新时刻的不同,这个方法分为两个传统的算法。再生环梯度逼近算法是每到更新点时,即更新一次参数,每步梯度逼近算法是每次状态转移都更新一次参数。这两个算法虽然很好的避开了“维数灾”和“模型灾”的问题,但它们也有其局限的地方:在再生环梯度逼近算法中,状态空间比较大时,再生环相应增大,更新缓慢,导致较低的计算效率,同时带来比较大的方差;在每步梯度逼近算法中,由于每做一次转移,算法进行一次更新,这洋计算量就会比较大,甚至有些实际系统是无法实现的。本文为了解决现有方法的这些不足,提出了Markov报酬过程、自适应Markov报酬过程以及随机策略的Markov决策过程的双时间尺度梯度逼近算法。算法主要思想是,在给定的更新周期上更新参数,而这个给定的更新周期序列是由两个时间尺度通过计算获得的,并且是个递增序列。算法的特点是开始更新较快,随后更新频率慢慢降低。这个特点带来的好处就是,在最初的更新中,算法结合了每步逼近算法的优点,更新较快,并且方差很小,有助于参数较快地收敛到最优值附近,同时将方差降低到一个很小的范围内;在随后的更新中,算法更新频率降低,经过很多次的状态转移参数才会更新一次,一次更新中获得的信息量比较多,有助于估值准确性的提高,提高了收敛精度,同时降低了计算量。并且在较弱的假设下,从理论上证明了算法的收敛性。无线多媒体通信网络问题是近期的研究热点,目前仍存在大量瓶颈问题。本文在上述理论研究的基础上,研究OVSF-CDMA系统中动态编码分配的呼叫容许接入控制问题和有QoS指标约束下的CDMA系统的呼叫容许接入控制问题的建模和优化。通过将问题建模为Markov决策过程,提出一种在线学习估计策略梯度,随机逼近优化容许接入策略的在线算法,利用双时间尺度的技术降低计算复杂度,提高收敛速度。并且这个算法不依赖于系统的具体参数,具有较强的适应性,可以适用于复杂应用环境中的无线多媒体通信网的呼叫容许接入控制的在线优化,具有较高的应用价值。
其他文献
工业自动化中的焊接技术在车辆、石油化工、电子、海洋工程建设等众多领域都有广泛应用。工业机器人视觉导航系统运用在焊接领域主要是通过二维,三维视觉技术实现焊接焊点、焊
基于室内超宽带信道测量研究建立了基于簇的时延抽头模型以及与距离和载频有关的新颖的路径损耗模型,建立了路径损耗同时与距离和频率的依赖关系。同时,研究发现视距和非视距
人类在认识世界和改造世界的中,无可避免地对自然界施加影响.有些坏影响,比如,人类生产过程中,过度消耗自然资源,恣意排放废弃物,引来后患无穷.比如最近发生在首都北京的空气
中学生物教学通过课堂教学来实现,把握好45分钟课堂教学,也就掌握了生物教学质量的生命线,保证了教学质量的提高.面对45分钟的挑战,如何在有限的时间内使学生最有效地获取知
实验类题目是高考的必考内容之一:所以对常见实验题进行分类,并逐一掌握其应考策略是高考备考中重要的一环.一、区分实验组和对照组生物实验设计的一个基本原则就是要设计对
高中生物教育除了让学生对这个相对现代的科目有一个初步的了解外,最为重要的就是有效应对高考考试理科综合生物部分(高中生物部分在高等院校招生考试中占有一定的比重).因此
磁悬浮轴承是一种利用磁场力将转子悬浮于空中,使转子和定子之间没有任何机械接触的新型高性能轴承。它是一门高新技术,涉及到电磁学、机械学、转子动力学、控制理论和计算机科
随着生活水平的提高及科学技术的发展,人们对汽车的性能要求越来越高。悬架系统作为现代汽车的重要部分之一,在提高汽车安全性和舒适性方面有着极其重要的作用。相对于其它类
近年来,随着教学改革的不断深入,素质教育越来越受到人们的重视.素质教育强调的是要注重学生的全面发展.生物作为自然科学的重要组成部分,是高中生的必修课之一,也是培养学生
自制教学设备能够拓宽教学实验内容,提高相关设计人员的业务素质,也为学生提供了更好的实验条件。目前,国内许多高校都在积极地进行这方面的尝试与研究。鉴于上述情况,本课题