一种基于示例轨迹的抽象动作树构造方法

来源 :计算机与现代化 | 被引量 : 1次 | 上传用户:kevinlpr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹的抽象动作树构造算法(ACADT),通过使用一种变点侦测方法,ACADT把每一个轨迹分割成一个抽象动作链。这些从轨迹中分割得到的抽象动作链随后被合并成一棵抽象动作树。实验表明ACADT可以构造成一棵抽象动作树并能够更快收敛。
其他文献
11月27日消息美国Google公司宣布,将投资数亿美元研究新的替代能源技术,Google创始人佩奇还表示,如果目标实现,Coogle将进入美国电力市场。
跨站脚本攻击(Cross-site scripting,XSS)是一种危害严重的Web漏洞,其中反射型XSS是最常见的一种XSS,对于反射型XSS的检测尤为重要。然而反射型XSS变种繁多,基于规则的传统XS
早在“9·11”事件后,人们就开始意识到。灾难恢复已经成为现代企业积极应对危机事件的必要技术和管理手段。然而,高投入应对小概率事件对于决策者来说是决心难下、维持不
正如艾瑞克·雷蒙德在其划时代的著作——《教堂与集市》中指出的,开源开发者最大的动力是“抓自己的痒处(出于自身利益的驱动)”。
传统图像边缘特征检测通过梯度算子卷积计算获取梯度图,并根据梯度变化情况设定阈值得到边缘信息,但图像的各局部区域梯度变化不均匀,采用统一阈值分割边缘信息往往会造成获
提出一种基于数据融合的组合式温度传感器。将在线性及稳定性方面具有良好性能的铂电阻温度传感器与反应速度快、灵敏度高的热敏电阻温度传感器进行物理组合,使用联邦卡尔曼
受益权转让信托融资是商业银行为满足部分中高端客户的融资需求,自主设计融资方案并发行理财产品,利用信托公司认可的信托计划设计交易结构,在不占用信贷规模的前提下,将理财资金
报纸
2013年8月20日,全球领先的整合动力系统公司,罗尔斯·罗伊斯在北京举行主题为“变革世界源动力——50周年为中国”创新论坛,探讨中国面临的创新挑战,分享罗尔斯·罗伊斯
虚拟机(VM)是支持多操作系统并行运行在单个物理服务器上的一种系统,它能够提供更加有效的底层硬件使用。
最近,一位职位很高的联邦官员取消了他部门的弹性工作日程表,因为他想要他的手下每天在他面前出现,供他调遣。他的这一做法是信息时代中联邦政府办公的一个退步,在信息时代,人们需