基于AMDP-Q的自主车辆行驶策略求解

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户:glosslee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的ε-贪婪策略进行策略选择.实验结果表明:AMDP-Q比MC-POMDP收敛速度更快. The AMDP-Q learning (AMDP-Q) algorithm is proposed by combining the augmented Markov decision process (AMDP), Monte Carlo-partially observable Markov decision process (MC-POMDP) ​​and Q learning.The main idea of ​​the algorithm Is: Firstly, a low-dimensional sufficient statistic is used to represent the original belief state space. The information entropy of the maximum likelihood state and belief state is usually used as the sufficient statistic, and the space composed of it is called augmented state space. Then the reference state set is discretized The space and use of Q learning and Shepard interpolation to obtain continuous state transfer function and reward function. Finally, we use the ε-greedy strategy of knowledge exploration strategy to select the strategy.Experimental results show that AMDP-Q has more convergence rate than MC-POMDP fast.
其他文献
1INTRODUCTIONScheeliteoresalwayscontainfluoriteandcalcite.Whentheheadgradeoffluoriteisupto15%CaF2,thefluoriteisofeconomicvalu... 1INTRODUCTIONScheeliteoresalwayscontainfluoriteandcalcite. Whentheheadgradeoffluoriteisupto15% CaF2, thefluoriteisofeconomicv
期刊
广告是一门沟通的艺术,不是简单的告知,而是争取对方对观点的认同,从而产生(消费)行为的改变。一个广告或文案,如果连客户都不能说服,只会让客户闭嘴,也会很难说服目标消费者  “罗辑思维”前几天又开始搞团购了,不过这次售卖的不是什么月饼、猕猴桃之类的,而是广告文案。  为了打包售卖广告文案,他们给自己写了一篇文案——《广告业逆袭:甲方闭嘴,不服来战》。文案的核心就是:我们弄来了25位中国顶尖文案高手,
从20世纪80年代家庭教育开始受到普遍关注以来,家校合作的理论研究与实践逐渐集中和日益丰富。家长学校作为家校合作的最主要的方式和载体,其专业研究与普遍建立大概是在21世纪
衡山米粉:小本创业首选美味创造财富口碑见证实力只用效果说话吃粉、喝汤、吸骨髓衡山米粉堪称小吃一绝说到衡山米粉,全国各地吃过的顾客都赞不绝口,而且吃过几次的人都有一
现代工程教育肇始于19世纪初期,以巴黎综合理工学院的成立为标志,同教育研究伴随教育实践一样,工程教育研究也随之诞生。工程教育研究一经产生,便开始了它自身的沿革进程,迄今为止
对于从初中就开始接触物理知识的理工科学生来讲,大学物理是一门十分重要、也非常熟悉的基础课程。但是,不少学生进入大学后,却不能很快的适应大学物理的学习,学习效果很不理想。
随着科技的发展,我们的社会将从信息时代向“创感时代”(Conceptual Age)转变。创感时代的经济和社会建立在创造性思维、共情能力、全局能力的基础上,强调用六种右脑能力来辅助左
随着知识经济时代的到来,人力资源的重要性逐渐凸显出来。事业单位人才评价与教育培训管理已经不仅仅是一种知识传递或技能传授的管理工作,更是促进事业单位职工共同成长的工具
中等职业学校的德育教学与德育管理工作,不仅体现了学校的办学水平,也影响中职生的成长与发展。随着我国职业教育的快速发展,国家对中等职业学校德育工作予以高度重视,2015年最新
近些年来,对普通高校大学生进行音乐教育,提高当代大学生的人文素质的问题已经引起了社会各界的广泛重视。音乐教育不仅从智育方面能丰富学生的知识,还可以促进学生美育、德育等