基于Q-learning的电子地图动态最短路径求解方法

来源 :2005中国控制与决策学术年会 | 被引量 : 0次 | 上传用户:sdrtgwdrtwertwert
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  基于动态网络中的两点间最短路径问题,本文提出利用Q-learning算法求解电子地图中的动态最短路径问题,并利用电子地图中已有的地理信息定义Q-learning算法的评价函数,描述了Q-learning算法的路径搜索策略学习训练的方法和实验过程.以广州市电子地图为基础,随机产生了一个动态网络,并利用这个网络对提出的算法进行了程序实现及性能分析.实验结果证明了该方法的有效性。
其他文献
本文考虑一类不确定时滞系统的模型参考自适应控制问题.基于李雅谱诺夫函数方法,把跟踪控制问题转化为误差系统的镇定问题,针对不确定项的不同特性,采用相应的控制策略.结合线性矩阵不等式的鲁棒控制器设计方法和自适应参数估计方法,设计时滞相关的鲁棒控制器,确保受控系统输出实用跟踪参考模型输出.结合算例进行控制器的设计和仿真研究,验证了所给出的设计方法的有效性.
本文以空间两体运动的Hill方程为基础,研究了卫星编队重组和相对保持静止的控制方法.分析了两种简化的编队飞行控制策略,结合这两种简化的控制策略提出一种变结构控制方法,并与全状态线性二次调节器设计的控制嚣性能进行了比较.数字仿真结果表明了该控制方法在存在环境干扰和较大测量噪声情况下的有效性.
本文研究不确定非线性马尔可夫跳跃关联系统的鲁棒H∞可靠控制问题,系统的状态矩阵中含有范数有界的时变不确定性.基于线性矩阵不等式方法,设计了分散状态反馈控制器,使得相应的闭环系统在执行器故障和H∞范数界约束下鲁棒随机稳定.仿真例子说明了方法的有效性.
元胞自动机模拟技术为探索企业经营战略的演化博弈问题开创了新途径.为此本文建立了企业战略演化博弈的CA模型,在CA的状态转换规则运用进化算法.最后进行仿真实验,实验结果表明这个模型是有效的。
监管自适应控制是当前自适应控制理论和应用的前沿研究课题之一,在航空航天等高技术领域有着广阔的应用前景.本文介绍了监管自适应控制的基本概念,讨论了其今后的发展前景和可能的研究方向.
模糊一致关系具有许多特殊的性质,特别是中分传递性符合人类决策思维的心理特征.首先对模糊一致关系进行扩充,从而提出一种广义模糊一致关系.然后,本文详细讨论了广义模糊一致关系的特殊性质,广义模糊一致关系的合成运算以及有限论域中广义模糊一致关系的构造.最后通过实例说明广义模糊一致关系的应用。
本文介绍了目前非线形理论中的一个活跃分支--分形,通过运用该分形方法和非线性动力系统的相关理论对股票市场的某些性质和特定结构进行了研究,得出股票市场自身的演化具有高度复杂性的结论.并在此基础上建立简单的时间序列预测模型,尝试做一些较准确的短期预测。
本文讨论具有m台机器加工n个工件的Q‖Cmax问题,目标是最小化makespan(即处理完所有工件需要的最短时间).由于该问题是NP-完全问题,大多数研究是在寻求启发式算法并进行最坏情形分析.为此应用改进的LPT算法(即FPSF算法)对工件进行排序,证明该算法对于较少工件情况是最优的,得到在最坏情形下该算法比同类算法较紧的上界。
本文运用模糊系统自适应控制的理论和方法,针对养老保险系统的控制需要,讨论了一类基于时变T-S模糊模型的自适应控制算法,给出了一个该算法的应用实例,取得了良好的效果。
本文讨论了一类钓鱼投资模型的控制策略的设计问题.采用广义最小方差策略,兼顾了限制投资额及实现预期目标的原则.利用实际统计数据进行建模及其控制策略的设计,由此得出我国生产总值在控制策略下波动幅度最小及控制策略的可行性。