面向马尔可夫采样数据的自适应时序差分算法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:liqingxian1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(Reinforcement Learning,RL)是实现智能决策的重要方式之一,并且已经成功应用在许多领域。在强化学习中,策略评估是一个关键问题。当指定策略时,时序差分(Temporal-difference learning,TD)学习是解决该问题的重要方法之一。目前,针对TD的理论研究大部分是基于数据服从独立同分布假设展开的,但在实际应用中很难满足该假设。为此本文假设数据服从马尔科夫性质,提出了两种自适应TD算法,补充完善了TD学习的理论体系。主要研究工作如下。1.提出了一种面向马尔可夫采样数据的自适应TD(λ)算法。该工作是基于一个更宽松、现实的采样条件,即马尔可夫采样,在此基础上,提出了一种自适应TD(λ)算法,简称为ADTD(λ)算法。该算法通过将原始的TD(λ)算法与自适应算法相结合,实现了步长的自适应,减少了算法对步长选择的敏感性。此外,本文还分别给出了定步长和递减步长情况下该算法的非渐近分析。最后,通过实验证明了ADTD(λ)算法比原始TD(λ)算法性能得到了提升。2.提出了一种面向马尔可夫采样数据的分布式自适应TD(0)算法。本工作在多智能体强化学习环境下,对分布式时序差分算法进行了改进,提出了分布式自适应时序差分算法,即MS-ADTD算法。该算法是基于更现实的时变网络以及马尔可夫采样,它将分布式TD(0)算法与自适应算法相结合,从而实现了自适应步长,降低了算法对步长选择的敏感性。除此之外,利用一致性算法以及构造多步李雅普诺夫函数得到了该算法的有限时间分析。最后,通过实验对比了MSADTD算法与原始分布式TD(0)算法,进一步验证了该算法的良好性能。本文对面向马尔可夫采样数据的时序差分算法进行了深入的研究,基于更现实的前提条件,改善现有的TD算法。经过严谨的收敛分析与证明,得到了一些相应的理论性成果,为其实际应用提供了理论支撑。此外,实验结果也进一步表明了新提出的算法相较于改进前性能有了提升。本文的研究成果进一步完善了强化学习的理论体系,对其发展具有一定的积极作用。
其他文献
红外焦平面探测器广泛应用于航空航天、红外遥感、医疗、通信、气象等诸多领域。在现有的红外焦平面探测器产品中,工作在3~5μm波段的InSb面阵探测器具有均匀性好、量子效率高、暗电流小等特点,在红外探测领域占据突出地位。在锑化铟红外面阵探测器(InSb infrared focal plane array detector,InSb IRFPAs)进行批量化生产时,InSb面阵探测器件的封装过程是在室
学位
结直肠癌是一种危害人体健康的重要疾病。近年来,结直肠癌的患病率、病死率逐年增高,为全球三大恶性肿瘤之一。其中淋巴结是否存在转移,与病人的治疗方案和康复有密切的关系。结直肠癌的CT影像分析,作为判断淋巴结转移情况的重要手段,成为结直肠癌治疗的关键技术。然而,当存在如细小血管、病灶区域被部分遮挡、病灶区域轮廓模糊等复杂情况时,CT影像的待分割区域易受噪声干扰,给人工分割直肠肿瘤带来了困难。针对上述问题
学位
<正>人工智能(AI)技术的飞速发展为媒体行业带来了新的机遇。神经网络、AR、VR的技术迭代、元宇宙世界、虚拟主持人、大模型等,都与AI发展密不可分。全球新闻传播领域在技术创新的推动下,呈现出智能化发展的趋势。AI技术正在改变新闻生产的全流程,从而导致媒体产业价值链的各个环节都发生了变革,甚至催生了新的媒体业态。[1]
期刊
目前对于特定专业领域内英汉机器翻译的研究常常受到语料资源少,获取困难,权威性专业性不足的限制,给各专业领域内机器翻译的发展带来了极大的阻力。针对电气工程领域文本特点,本文基于注意力机制的神经机器翻译模型,提出使用不同的嵌入层参数初始化方法,并改进了模型的结构,以此来提高模型在电气工程领域上的翻译效果。本文主要工作如下:1.提出不同的嵌入层参数初始化方法。针对电气工程领域英汉机器翻译中平行语料稀缺的
学位
中医是我国独具优势和特色的传统医学体系,是中华优秀传统文化不可或缺的一部分。利用现代互联网技术发展中医行业,探索中医与人工智能融合的新模式,是传承中医药精华、守正创新的重要内容,对中医在治未病、重大疾病治疗、疾病康复中具有技术支撑和保障作用。中医师问诊具有以下步骤:通过望、闻、问、切等模式确定患者的证候(即症状和体征);通过辨别证候给出治法,治法是针对临床证候采取的具体治疗方法;最终依据治法开出个
学位
当前,信息技术和新一代基因测序技术的发展,提供了海量的公共卫生数据,如何使用合适的数据挖掘技术探索数据包含的潜在信息,是当前的研究热点。通过对集成聚类方法在公共卫生领域进行研究,发现目前两个亟待解决的关键问题:提高聚类精度和聚类数的选择。在局部加权集成聚类和一致性聚类的基础上,针对上述两个问题,分别提出了二次加权集成聚类算法(DWEC)和多维度集成聚类算法(MCC)。首先,二次加权集成聚类算法根据
学位
在实际应用中,由于设备条件等多种因素的影响,经常会出现人脸图像分辨率不一致的问题,致使身份识别无法正常完成,对于这种问题的研究被称作跨分辨率人脸识别。顾名思义,跨分辨率人脸识别是使用某种算法(如图像超分辨技术)将已知高分辨率图像与待测试低分辨率人脸图像进行匹配。图像超分辨是一种将图像通过算法从低分辨率恢复或者重建成高分辨率的技术,高分辨率图像由于其很高的像素密度,往往包含更多的纹理细节,因此使得人
学位
目标检测与图像分割方法具有目标分类与目标定位的功能,在图像处理领域中被广泛应用。当前的目标检测与图像分割方法常常结合深度学习理论自主学习图像特征,并在较为复杂的场景应用时表现出较好性能。然而实际工业现场中多数硬件设备计算性能不足,无法支撑深度神经网络庞大的运算量,同时,单独的检测或分割网络对于特定任务的处理效果不符合我们的期望,存在新算法难以在硬件资源约束条件下大规模普及推广问题。为此,本文对YO
学位
随着中医药的发展,越来越多的人开始关注舌诊,舌诊有很强的辅助诊疗效果,通过舌诊可以较为全面地判断人的身体健康。如今计算机技术日新月异,数字化舌诊开始普及,数字化舌诊采集舌象图片分为标准环境和开放环境。在开放环境自然光照条件下采集的舌象图片往往会被拍摄角度和复杂背景影响,为舌诊的分析带来挑战。本文基于开放环境下的舌象图片,采用深度学习的方法,从舌象的检测和分割两个角度展开研究,分割出可供后续中医诊断
学位
目前关于CO2浓度升高后作物养分吸收利用的研究大多集中在单作作物上,针对间作体系养分吸收利用的系统研究还鲜有报道。CO2浓度升高后会对玉米|花生植株养分含量会发生怎样的变化?吸收量是否会增加?其利用特点是怎样的?施磷将对其养分吸收利用产生哪些影响?为此,本研究采用开顶式气室,以玉米|花生2:4模式为研究对象,研究了CO2浓度升高对玉米|花生植株氮(磷、铁)含量与氮(磷、铁)积累、各器官氮(磷、铁)
学位