论文部分内容阅读
近年来,动态不确定环境下的智能体在线规划和学习引起了科学界的极大关注,已就智能体在决策时必须考虑各种不确定性作为设计健壮系统的必备条件而达成共识。部分可观察马尔可夫决策过程(Partially Observable Markov Decision Processes,简称POMDPs)为智能体在动态不确定环境下的序贯决策提供了一个理想的模型,该模型可以对传感器噪音、丢失信息和部分观察信息等不确定性信息提供鲁棒性建模,进而最优化序贯策略。然而,基于POMDPs的智能体在线规划与学习常陷入信念状态空间“维数灾”和“历史灾”问题,造成现有算法仅适用于小规模问题,难于应用到大规模实际工程中。本文针对上述问题,重点研究信念状态空间压缩方法、在线规划和在线学习方法,并将本文方法应用到无线传感器网络能量高效领域。主要研究成果和创新点如下:(1)提出一种基于非负矩阵分解更新规则的可分解POMDPs信念状态空间降维算法针对求解可分解POMDPs规划问题时遭遇的“维数灾”问题,提出一种基于非负矩阵分解更新规则的可分解POMDPs信念状态空间降维算法。首先,根据POMDPs的结构特性,对状态、观察和动作进行可分解表示,利用动态贝叶斯网络的独立关系对信念状态空间进行压缩,从而降低信念状态空间的稀疏性。然后,采用信念状态空间值直接降维方法进行降维,利用非负矩阵分解更新规则来更新信念状态空间,从而不但避免Krylov迭代,加快降维速度,而且保留了值函数分段线性凸特性,使得降维前后值函数不发生改变。仿真结果表明,该算法具有较低误差率和较高收敛性。(2)提出一种基于点的POMDPs在线值迭代算法针对POMDPs序贯决策遭遇的“历史灾”问题,提出一种基于点的POMDPs在线值迭代算法。该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,从而加速问题求解;采用分支界限裁剪方法对信念状态与或树进行在线裁剪;提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算。仿真结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求。(3)提出一种基于模型的可分解贝叶斯增强学习算法针对POMDPs在线学习面临的学习参数巨大、算法收敛速度慢等问题,提出一种基于模型的可分解贝叶斯增强学习算法。首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据智能体先验知识和观察数据利用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的增量裁剪方法实现算法的快速收敛。仿真结果表明,该算法能够满足实时系统性能的要求。(4)提出一种基于POMDPs的无线传感器网络能量高效策略无线传感器网络能量高效策略是目前无线传感器网络面临的难题。针对无线传感器网络节能问题,应用本文提出的方法,首先,提出一种基于广义逆非负矩阵分解的无线传感器网络能量高效通信算法,采用非负矩阵分解方法对奇异值分解后的特征空间进行降维。然后,提出一种基于信念重用的无线传感器网络能量高效跟踪算法,针对现有跟踪算法误差较大问题,采用最大报酬值启发式方法获得跟踪性能的近似最优值。针对传感器能量消耗过大问题,采用信念重用方法,不仅可以减少传感器通信能量,而且还能够进一步降低POMDPs值函数误差,提高跟踪性能。图41幅,表11个,参考文献172篇。