基于核方法的强化学习算法

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:hanhaicang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的强化学习算法通常假设状态空间和行动空间是离散的,而实际上很多问题的状态空间是连续的,这就大大地限制了强化学习在实际中的应用。为克服以上不足,本文提出了一种基于核方法的强化学习算法,能直接处理具有连续状态空间的问题。最后,通过具有连续状态空间和离散行动空间的mountain car问题来验证算法。实验表明,这种算法在处理具有连续状态空间的问题时,和传统的先把状态空间离散化的方法相比,能以较少的训练数据收敛到更好的策略。
其他文献
本文研究的目的就是针对飞机、车辆等运动目标,如何提取角点特征。提出了一种基于小波变换的特征提取方法,充分利用了双正交小波的多尺度特性、对称性、正则性的优点,作者选取了角点这一重要的局部特征作为研究对象,并以曲率为出发点,结合基于灰度图像和边缘图像的角点检测方法提取角点,最后与其他方法提取的角点进行了比对。实验表明,这种方法的稳定性较强、算法简单,在同等运算量的情况下提高了角点的准确性。
本文提出并研究了一种以Microsoft Visio2003图形软件为平台,利用VBA进行二次开发的图形化继电保护整定计算软件的新技术和新的实现方法。介绍了通用的图形化继电保护整定的
本文运用机器视觉的方法进行铁轨建设时基准桩的检测,克服了传统测量方法费时费力的缺点,提高了检测的速度和效率。在机器视觉检测系统中,利用工业CCD相机采集图像数据,用序贯相似性检测算法(SSDA)模板匹配法识别基准桩,通过合理选择阈值,准确地将基准桩分离出来。再通过Canny算子求得基准桩的边缘图像,利用边缘信息找出基准桩的中心,通过相机坐标系和成像坐标系间的换算,即可得到基准桩在测量坐标系中的位置
现有的门限多秘密共享方案中,大多数存在着参与者的秘密份额由秘密中心生成、具有固定的门限值、需要安全通道、有固定的庄家或秘密中心(Dealer)等安全缺陷问题。为了解决这
大规模汇聚流量的研究在当前的网络环境下起着越来越重要的作用,无论在改善网络性能还是在提高网络入侵的防御能力方面。在大流量的限制条件下,网络模拟成为研究网络的主要手
本文介绍了ARM S3C44B0X与DSP TMS320DM642的主要特点以及HPI接口的原理,提出了一个采用HPI设计ARM与DSP通信接口的方案,该方案应用在基于ARM与DSP的嵌入式视频监控系统的设
为了实现异构本体间的互操作,本体映射是最有效的解决方法。在本体映射的研究中,已经有很多文献提出了多种映射方法,比较和分析这些方法后,本文基于Schema映射理论构建了基于
本文介绍基于MVC模式的Struts框架设计的一个银行绩效考核系统。首先分析了系统的架构和关键技术,接着列出了绩效考核系统的常见问题并给出了具体的解决方案。
实时动态钢轨检测系统采用激光近红外线状光源,CCD技术及计算机图像处理等技术,对轨道的不平顺进行检测,通过计算机设计适应本系统的图像处理软件,获得其不平顺参数,给铁路的
Zigbee标准具有低速率、低能耗、安全可靠等特点,非常适合于家庭自动化、建筑自动化和工业自动化应用。本文根据国际标准,分析、设计和实现了ZigBee协议栈。采用的单片机Atme