基于支持样本的快速增强学习算法

来源 :微计算机信息 | 被引量 : 0次 | 上传用户：chenzhipengo

【摘要】

：

针对确定性马尔克夫决策过程，本文提出了一种基于支持样本的快速增强学习算法。文章首先把学习问题形式化为一个确定性的马尔可夫决策过程，并对问题空间中每个状态的总回报值进

【作者】

：

肖力束雄英查亚兵

【机构】

：

国防科学技术大学

【出处】

：

微计算机信息

【发表日期】

：

2009年24期

【关键词】

：

增强学习马尔可夫决策过程支持样本 increasing learning Markov decision processes Supportable s

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对确定性马尔克夫决策过程，本文提出了一种基于支持样本的快速增强学习算法。文章首先把学习问题形式化为一个确定性的马尔可夫决策过程，并对问题空间中每个状态的总回报值进行估计，根据总回报估计值与累积总回报估计值的大小关系，提出了支持样本的概念，即在大量的训练样本中，提取出值得我们信赖的那些样本；然后建立状态空间与动作空间之间的对应关系，用得到的支持样本进行最小二乘逼近，得到了快速有效的策略函数；最后，通过仿真实验，证明了方法的有效性。

其他文献

基于熵理论的ERP软件选型评价方法

由于企业对于ERP软件选型缺乏可参考的模型，从而影响了企业ERP软件的选型决策质量。文章提出并建立了基于熵理论的ERP软件选型评价模型，阐述了ERP软件选型的评价指标体系框架及

期刊

ERP选型熵理论ERP software selecting entropy theory

基于PLC和组态软件的拉力实验机测控系统设计

文章在现代技术设计理念的基础上，介绍了拉力机自动测控系统的技术实现。该系统采用PLC及PC实现了系统的自动测试、故障诊断以及测试波形和结果等的显示，并给出了系统的硬件结

期刊

拉力实验机可编程控制器组态软件测控系统drawing-testing machine PLC configuration software sup

基于单片机的交流伺服无位置传感器系统设计

永磁同步交流伺服系统是当前数控机床中采用的主要伺服系统。为保证其对速度和位置的高精度控制，无位置传感器控制技术日显重要。文章介绍了应用非导通相反电动势过零点检测转

期刊

数控机床伺服系统M16C/28单片机无位置传感器控制无刷直流电机servo system in NC machine tool M16C/28 gro

模糊控制理论在电解槽pH值控制中的应用

基于化工生产中净化过程的严重非线性、时间延迟、非参数模型等特性,使得采用常规的控制技术如PID,对pH值进行精密控制难以取得理想效果的特点,文章提出的模糊控制决策,在净

期刊

净化PH值模糊控制refine pH fuzzy control

绿色QFD在静电涂油机设计开发中的应用

随着消费者环境意识的进一步增强及社会可持续发展的需要，如何设计出既满足顾客需求又具有低成本的绿色环保产品，成为大多数企业追求的目标。针对传统质量功能展开法在产品开发

期刊

绿色QFD质量屋LCA层次分析法Green QFD Quality House LCA AHP

数字化工厂中工艺规划的特征识别技术的应用

文章首先阐述了数字化工厂的概念和工艺规划系统的主要分类以及其在当今的制造业中所起到的作用，针对工艺规划系统和数字化工厂技术之间的关系进行了说明，论文着重对工艺规划系

期刊

数字化工厂工艺规划系统特征识别技术digital factory CAPP feature recognition

基于信息素理论的智能家电系统的研究

本文对基于信息素理论的智能自动化家电系统进行了分析研究。首次将蚁群算法的信息素理论应用于智能自动化家电系统的智能学习中，智能系统经过一段时间的使用以后，能够准确判断

期刊

蚁群算法信息素智能家电系统串口通讯蓝牙通讯Ant colony algorithm Pheromones Intelligent home app

基于C/S模式的数控车削物理仿真技术的研究

支持网络环境下数控加工仿真平台,当加工者和代码编制者不在同一物理地点或者相隔较远的情况,可以消除传统的数控加工仿真的局限性.目前的数控加工仿真大都是基于本地数控代

期刊

物理仿真变形误差补偿physical simulation distortion error compensation

基于多Agent的三维协同设计系统开发

针对计算机支持的网络化协同设计问题，提出了Agent的一般结构模型及基于多Agent的三维协同设计系统的结构模型，研究了实现多Agent的协同设计系统的关键技术，构建面向项目的多Age

期刊

协同设计多AGENT数据库客户端通讯collaborative design multi-agent data base client com

基于粗糙集理论的空气质量智能数据分析

粗糙集作为一种智能工具可以用来挖掘数据依赖,数据约简近似集分类以及从数据库中提取规则。本文将粗糙集方法应用在空气质量评估中,从空气数据库中提取其规则从而对数据进行

期刊

粗糙集约简规则质量评估rough set reduct rule quality assessment

基于支持样本的快速增强学习算法

与本文相关的学术论文