学习自动机拓展理论及应用

来源 :上海交通大学 | 被引量 : 2次 | 上传用户:intint
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学习自动机是一种强化学习技术,其基于一定的策略,通过与环境的不断交互,能够在由一系列行为组成的集合中选择出最优的行为。学习自动机具有算法简单、抗噪能力强、完备的理论证明、以及支持在线学习等优点,因此得到了大量的研究和应用。然而近年来随着复杂随机环境下多维函数优化等新问题的不断提出,目前学习自动机所存在的许多理论局限性逐步显现出来,这也在一定程度上限制了其得到更进一步的实际应用。为此本文将从学习自动机三大核心要素(行动集合,反馈集合和状态集合)角度出发,分别对两大子类学习自动机(有限行为集合学习自动机和连续行为集合学习自动机)展开拓展理论研究,以促进学习自动机理论体系的进一步完善,并在此基础上对学习自动机理论成果加以实际应用。本文主要工作可以归纳如下:第一,详细介绍了学习自动机的定义、工作机理和评价标准等基本理论,并进行了相应的归纳和总结。第二,从状态估计器和反馈集合角度,对随机平稳环境下的有限行为集合学习自动机算法进行理论拓展研究。首先,针对基于最大似然估计器学习自动机所存在的冷启动和初始化问题,从状态估计器角度出发,提出了一种新的改进贝叶斯估计器,该估计器的本质是对最大似然估计器进行拉普拉斯平滑,可有效解决上述问题。在此基础上,将上述改进型贝叶斯估计器和随机估计器相结合,提出了一种可变结构学习自动机算法GBSE,该方法有效解决了冷启动和高效收敛等问题。其次,针对目前有限行为集合学习自动机主要考虑二元环境的这一局限性,从反馈集合角度出发,结合一种适合众多实际情况的三元随机环境,给出了将二元环境学习自动机算法拓展到适用于三元环境的框架思路,该框架可有效解决三元环境下的学习问题。并据此框架对二元环境下典型的确定性结构学习自动机TFSLA(2N,N)、IJA(2N,N)和上述可变结构学习自动机GBSE进行拓展,分别提出了三元环境下的TI-TFSLA(2N,N)、TI-IJA(2N,N)、TI-GBSE。第三,从反馈集合和行动集合角度,对平稳和非平稳环境下以解决随机点定位问题为代表的连续行为集合学习自动机算法进行理论拓展研究。首先,针对目前随机点定位问题中也仅考虑二元环境这一局限性,从拓展反馈集合角度出发,构建了三元随机环境模型,进而提出了基于三元环境的学习自动机算法RWTA,该算法对搜索区间进行离散化并构建在离散点上随机游走的学习自动机。理论和实验表明,在收敛条件满足的前提下,RWTA算法可有效解决三元平稳和非平稳环境下的学习问题。其次,针对目前随机点定位算法所存在的一维空间局限性,拓展研究多维空间环境下随机点定位问题,提出多维随机点定位算法模型框架。该框架把多维空间中的随机点定位问题转化为多个一维空间下随机点定位问题,并对这些一维空间下随机点定位问题进行求解。理论和实验表明,该框架在收敛条件满足的前提下可以准确收敛到高维连续空间中的最优目标点。最后,利用前述拓展后的学习自动机理论研究成果解决实际应用问题。一方面,针对高噪声随机环境空间中的时空事件挖掘问题,分别提出了基于传统有限行为集合学习自动机和拓展可变结构学习自动机理论的两种时空事件挖掘学习自动机方法STP-TFSLA和STP-GBSE,其通过把随机事件的观测值转化为随机环境的反馈,并利用学习自动机能收敛到最优行为的特点,来确定出观测到的时空事件是否有规律可循。另一方面,针对高噪声复杂随机环境下的多维函数优化问题,提出了基于前述连续行为集合学习自动机理论成果的多维严格单峰函数优化方法MSPL-SUFO和多维多峰函数优化方法MSPL-MFO,其通过把受环境干扰的信息构建为随机环境,直接利用前述提出的连续行为集合学习自动机成果,就可以有效搜索到函数最优值。
其他文献
随着我国经济社会的不断发展,为我国各项事业的发展提供了充足的物质发展基础,得益于此,我们的医疗卫生事业也取得了一定程度的发展。在新医改工作的不断推动之下,社会各界也
急性呼吸道感染是一种危害公共健康的常见疾病,为应对急性呼吸道感染对经济社会造成的影响,了解其临床特征与致病规律,中国建立了住院严重急性呼吸道感染病例哨点监测网,开展
随着收入的提高,消费者对奢侈品的关注热度居高不下,有研究表明,消费者的炫耀性动机是推动奢侈品消费快速发展的重要力量之一。消费者的炫耀性消费行为加剧了产品市场需求的不确定性,提高了供应链管理和决策的难度。因此,有必要对炫耀性消费进行研究,探讨炫耀性消费对供应链决策和运营的影响。考虑消费者的炫耀性消费行为,本文研究供应链的定价决策问题。供应链包含一个制造商和一个零售商,制造商作为Stackelberg
随着地理信息系统技术在各个应用领域的推广使用,GIS技术与地理空间信息的表示、处理、分析和应用得到广泛运用。主要阐述了GIS的定义、数据采集、数据入库的过程,阐述了为了
相贯节点具有承载力高、便于施工等特点而广泛用于机场、火车站、厂房等大跨度结构中。目前国内外学者对相贯节点进行了大量研究,但针对型钢弦杆与圆钢管腹杆组成的相贯节点
探讨了T形、X形柔性路面平面交叉口竖向设计,分析了平交口连接部的纵断设计及平交口竖向高程的调整,从而达到合理的交叉口竖向设计。
标准化在生态文明建设中具有重要作用,产业联盟标准是经济发展及标准化活动创新的产物,生态化价值应当成为产业联盟标准符合性的判断准则之一。产业联盟标准是企业依据联盟协
民事行政检察监督制度是一项具有中国特色的检察制度,在维护司法公平正义和保护公民、法人合法权益方面,已经和正在发挥着重要的作用。目前司法实践中,我国民事裁判执行工作面临
英语词汇的记忆对于英语学习者来说至关重要.因此,自己制做词汇卡进行单词记忆,效率很高.