关系强化学习的研究与应用

来源 :长沙理工大学 | 被引量 : 6次 | 上传用户:windFWF1992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过几十年发展,强化学习已得到长足的进步,已成为机器学习、人工智能研究中最活跃的领域之一。在实际问题中,由于状态空间的规模过大以及目前硬件条件的限制,导致算法的效率不高。现有的大多数算法都采用属性值计算,不能体现物体间的关系。随着逻辑程序的发展,这种关系可以通过变量来描述,使得学习任务从复杂的计算中抽象出来。关系强化学习将逻辑程序和强化学习结合,为强化学习处理大状态空间问题提供了新的方法。本文主要工作内容进行如下:1.通过分析现有各种算法及运行机制,提出了一种改进的关系强化学习算法。由于原算法计算重复、迭代次数多、值备份过多,改进算法采用一种增量更新逻辑决策树的方法实时处理每一个样本点。减少了计算量,提高了算法实时性;为了弥补子叶节点信息丢失造成收敛速度慢的不足,算法给逻辑谓词赋予了一个优先级。并在子叶分裂过程中,根据优先级选定候选测试,以提高算法收敛速度。经实验对比原算法,改进算法的效率有较大提升。2.概述了现有智能车的智能控制算法;建立了一个基于关系强化学习模型的自主驾驶系统。系统分为状态分析、策略学习、知识库三个模块。这种模块化的设计便于针对不同车辆的特点,设置不同的背景知识。充分利用关系强化学习的学习能力,提高了系统适应性。实验模拟了不同的环境,检测了系统的避障性能。
其他文献
随着电子商务技术的高速发展,特别是近几年以XML为基础的ebXML ( Electronic Business XML)技术逐渐成熟并开始应用,XML已经逐渐成为数据交换的标准。XML由于具有简单性、易
智能视频监控涉及到数字图像处理、机器学习、模式识别、人工智能和数据挖掘等诸多研究领域,其中智能化部分的运动目标的行为分析与理解属于高层视觉处理,该部分是计算机视觉领
随着入侵检测等高维数据机器学习问题的不断涌现,已有的特征选择算法和机器学习算法面临着严峻的挑战,迫切需要准确性和运行效率等综合性能较好的特征选择算法以及机器学习算
无线传感器网络(Wireless Sensor Network,WSN)是由大量低成本的受资源约束的传感器节点所构成的网络,这些节点间相互协作,从而实现对网络覆盖区域的监控。各个节点所感知到
文件系统是Linux操作系统的重要组成部分。传统文件系统技术成熟、性能稳定,但其耗时的崩溃恢复机制使现代操作系统面临着极大地安全隐患。日志文件系统的出现有效地解决了这
在某些情况下,卫星星座需要对全球地面目标进行访问,但对连续性覆盖要求不高,只要满足一定的访问间隔时间限制,访问时相比较均匀即可。这时就不需要部署大型星座,用数量较少
车间作业调度问题(Job-Shop Scheduling Problem,JSSP)是最一般的,最复杂的和最具难度的生产调度问题。一般的车间作业调度中,设备资源约束是每台加工设备只有一台;因而在实际的加工调度中往往会存在对整个产品加工时间影响较大的瓶颈,对于这种情况,一般的求解方法也往往采用确定各个工序中工件的加工次序。解决瓶颈问题的一种简便方法是增加瓶颈设备,现在无论在学术界还是实际生产中对瓶颈
随着Internet的发展和普及,人类社会对网络的依赖性越来越强,与此同时,网络安全问题也日益突出。在众多网络安全问题中,分布式拒绝服务(DDoS)攻击容易实施、难以防范、难于追踪,是
针对人体组织器官的三维图像分割是医学图像分析和医疗诊断的重要前提,是医学图像三维可视化的重要研究内容。随着医学成像技术和三维可视化技术的飞速发展,计算机辅助诊断成
在中文自然语言处理中,命名实体识别(NER)是中文自动分词的一个重要步骤:同时,由于命名实体的识别课题必须解决词的边界界定、上下文歧义的消除、未登录词的识别、实体本身的多