基于AMDP-Q的自主车辆行驶策略求解

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户：glosslee

【摘要】

：

结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示

【作者】

：

夏林锋钱徽陈沈轶金卓军

【机构】

：

浙江大学计算机科学与技术学院,

【出处】

：

华中科技大学学报(自然科学版)

【发表日期】

：

2011年S2期

【关键词】

：

状态空间自主汽车充分统计量 Q学习蒙特卡罗状态集信息熵连续状态空间算法参考状态

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的ε-贪婪策略进行策略选择.实验结果表明:AMDP-Q比MC-POMDP收敛速度更快. The AMDP-Q learning (AMDP-Q) algorithm is proposed by combining the augmented Markov decision process (AMDP), Monte Carlo-partially observable Markov decision process (MC-POMDP) and Q learning.The main idea of the algorithm Is: Firstly, a low-dimensional sufficient statistic is used to represent the original belief state space. The information entropy of the maximum likelihood state and belief state is usually used as the sufficient statistic, and the space composed of it is called augmented state space. Then the reference state set is discretized The space and use of Q learning and Shepard interpolation to obtain continuous state transfer function and reward function. Finally, we use the ε-greedy strategy of knowledge exploration strategy to select the strategy.Experimental results show that AMDP-Q has more convergence rate than MC-POMDP fast.

其他文献

ACTIVATION AND DEPRESSION OF CALCITE IN CALCIUM MINERALS FLOTATION

１ＩＮＴＲＯＤＵＣＴＩＯＮＳｃｈｅｅｌｉｔｅｏｒｅｓａｌｗａｙｓｃｏｎｔａｉｎｆｌｕｏｒｉｔｅａｎｄｃａｌｃｉｔｅ．Ｗｈｅｎｔｈｅｈｅａｄｇｒａｄｅｏｆｆｌｕｏｒｉｔｅｉｓｕｐｔｏ１５％ＣａＦ２，ｔｈｅｆｌｕｏｒｉｔｅｉｓｏｆｅｃｏｎｏｍｉｃｖａｌｕ... 1INTRODUCTIONScheeliteoresalwayscontainfluoriteandcalcite. Whentheheadgradeoffluoriteisupto15% CaF2, thefluoriteisofeconomicv

期刊

甲方闭嘴就能让广告业逆袭？

广告是一门沟通的艺术，不是简单的告知，而是争取对方对观点的认同，从而产生（消费）行为的改变。一个广告或文案，如果连客户都不能说服，只会让客户闭嘴，也会很难说服目标消费者　　“罗辑思维”前几天又开始搞团购了，不过这次售卖的不是什么月饼、猕猴桃之类的，而是广告文案。　　为了打包售卖广告文案，他们给自己写了一篇文案——《广告业逆袭：甲方闭嘴，不服来战》。文案的核心就是：我们弄来了25位中国顶尖文案高手，

期刊

广告业广告文案目标消费者团购广告人一篇创意广告广告作品定制化一门

抚顺市市区小学家长学校建设现状分析与对策研究

从20世纪80年代家庭教育开始受到普遍关注以来，家校合作的理论研究与实践逐渐集中和日益丰富。家长学校作为家校合作的最主要的方式和载体，其专业研究与普遍建立大概是在21世纪

学位

小学教育家校合作教育合力

“一粉三吃”吸引美食客绝技赢得财源来

衡山米粉:小本创业首选美味创造财富口碑见证实力只用效果说话吃粉、喝汤、吸骨髓衡山米粉堪称小吃一绝说到衡山米粉,全国各地吃过的顾客都赞不绝口,而且吃过几次的人都有一

期刊

米粉衡山喝汤小本创业骨髓小吃一绝美味经典广告食客

近代以来的中国工程教育研究

现代工程教育肇始于19世纪初期，以巴黎综合理工学院的成立为标志，同教育研究伴随教育实践一样，工程教育研究也随之诞生。工程教育研究一经产生，便开始了它自身的沿革进程，迄今为止

学位

工程教育人才培养教育体制改革演进轨迹

大学物理与中学物理衔接问题研究（教材）

对于从初中就开始接触物理知识的理工科学生来讲，大学物理是一门十分重要、也非常熟悉的基础课程。但是，不少学生进入大学后，却不能很快的适应大学物理的学习，学习效果很不理想。

学位

大学物理中学物理教学衔接课前预习先导材料

创感教育下基于Moodle的网络课程设计

随着科技的发展，我们的社会将从信息时代向“创感时代”（Conceptual Age）转变。创感时代的经济和社会建立在创造性思维、共情能力、全局能力的基础上，强调用六种右脑能力来辅助左

学位

创感教育Moodle创感教学设计活动理论

浅析事业单位人才评价与教育培训管理

随着知识经济时代的到来，人力资源的重要性逐渐凸显出来。事业单位人才评价与教育培训管理已经不仅仅是一种知识传递或技能传授的管理工作，更是促进事业单位职工共同成长的工具

期刊

教育培训人力资源事业单位人才评价

中等职业学校活动德育模式的理论与实践研究——以沈阳市A校为例

中等职业学校的德育教学与德育管理工作，不仅体现了学校的办学水平，也影响中职生的成长与发展。随着我国职业教育的快速发展，国家对中等职业学校德育工作予以高度重视，2015年最新

学位

中等职业学校德育教学活动德育模式工作机制

独立学院音乐欣赏公选课教学的问题与对策研究——以西南大学育才学院为个案

近些年来，对普通高校大学生进行音乐教育，提高当代大学生的人文素质的问题已经引起了社会各界的广泛重视。音乐教育不仅从智育方面能丰富学生的知识，还可以促进学生美育、德育等

学位

音乐欣赏公选课独立学院教学现状

基于AMDP-Q的自主车辆行驶策略求解

与本文相关的学术论文