基于Q学习的震后救援路径寻优算法研究

来源 :石家庄铁道大学 | 被引量 : 1次 | 上传用户:0364jill2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地震危害巨大,强烈的地震会使道路两侧建筑物倒塌从而阻断道路,使整个路网遭到破坏。当地震发生后城市外的救援人员需要将大量救援物资及时送往灾区,而城市内的人们则需要尽快将受伤的群众和灾民送往安全地区。因此,能否以最快的速度建立救援通道对于挽救受伤群众生命,减少财产损失显得至关重要。但是,城市内的一些基础设施由于受到地震的破坏,使电力、通信等系统部分甚至完全失效,导致灾区与外界在短时间内无法进行信息交流,这使得救援工作变的更加困难。本文根据人工智能的相关理论结合城市震后路网的实际特点,把每个救援队看作单个智能体,建立了基于Q学习的城市震后救援路径寻优模型。模型中以城市震后路网作为救援队所处环境,将路网中每个节点作为救援队的状态,救援队从节点到相邻节点的转移作为一个动作,把路段可靠度作为救援队学习的回报值。救援队经过一定次数的学习后可以得到每个状态-动作对的折扣累积的路段可靠度,即Q值。根据Q值大小,救援队确定动作选取的最优策略,通过该策略救援队可以找出一条到达灾区的最优路径。本文以长春市朝阳区部分路网为例进行了实例计算,验证了模型的可行性。并且,对模型参数进行了敏感性分析,结果表明当学习率上升,其它参数不变时,智能体学习速度加快;当折扣率上升,其它参数不变时,智能体学习速度降低。同时,考虑到地震发生后往往会存在多个救援队同时开展救援,建立了基于多智能体通信协作条件下的震后救援路径寻优模型。模型中以震后道路的破坏信息作为共享信息,救援队通过彼此信息的交流加快学习速度。由于在大地震发生后的最初阶段,通信设施遭到破坏,救援队间的通信很少,甚至完全没有。经过一定时间,通信率会逐渐增加。该模型中救援队之间的通信率初始值为零,随着时间的推进逐步增加。为了验证模型的可行性,同样以长春市朝阳区部分路网为例进行了实例分析,结果表明基于多智能体通信协作条件下的路径寻优模型可以以更快的速度找到一条较优的救援路径,多智能体的学习速度要比单智能体的学习速度提高了近三分之一。
其他文献
目前,基础教育课程改革已经在全国展开,与以往的课程相比,物理新课程在教学目标,教学内容、教学方式和方法、教学评价方面有了很大革新。课程改革离不开教学改革,物理新课程
目的临床研究:观察中药疏肝和胃降逆汤治疗胃食管反流病(GERD)的临床疗效。实验研究:通过胃排空及小肠推进实验和血浆生长激素释放肽(Ghrelin)检测,探讨疏肝和胃降逆汤对反流性
河湟地区,是一个汉、藏、蒙古、土、回、撒拉等多民族杂居的地方,也是藏传佛教的重要传播区域。在这个地区,藏传佛教格鲁派的影响力最大。以往关于河湟地区藏传佛教的研究,主
<正>随着课改的不断深入,师生对于教材中的课文的研读也越来越正确和深入。学生在读中感悟,在读中积淀,在读中提升。然而,在指导学生读的同时,作为语文教师,我们读课文了吗?
本文研究的是澳门报刊《镜海丛报》,发行时间1893年7月18日至1895年12月25日,共发行125号,目前发现的有69份,占发行总数的55.2%。澳门是中国近代报业的发源地,对中国报业的发
《英语国家概况》课程自2000年开始,至今仍是我国高等院校英语专业的必修课。该课程作为文化知识传输的重要途径,具有举足轻重的作用。本文将基于建构主义学习理论,探索问题
随着我国现代农业的发展,温室环境监控技术的发展也取得了很大进步,但是也存在温室环境监控系统自动化水平相对较低,系统设计复杂,现代管理水平较低等缺点。目前,大多数的温
由于惯性导航系统和卫星导航系统具有良好的互补性与北斗导航系统的迅速发展,惯性/卫星紧组合导航系统得到广泛应用。但卫星导航系统的时变、易受干扰等特性,极易污染整个组
本文通过研究宇通客车的管理层收购事件,发现现行国有产权分级管理制度、国有资产处置收益权利划分制度导致中央政府和地方政府间目标利益的不一致,具体表现在国有企业管理层
将熵权理论与模糊综合评价法相结合,建立了基于熵权的大气环境质量模糊综合评价模型,并应用该模型对泰州地区大气环境质量进行评价,与单因子评价结论进行对比分析,结果表明模糊综