动态不确定环境下的智能体序贯决策方法及应用研究

被引量 : 0次 | 上传用户：lairr

【摘要】

：

近年来,动态不确定环境下的智能体在线规划和学习引起了科学界的极大关注,已就智能体在决策时必须考虑各种不确定性作为设计健壮系统的必备条件而达成共识。部分可观察马尔可

【作者】

：

仵博

【发表日期】

：

2013年期

【关键词】

：

部分可观察马尔可夫决策过程信念状态空间基于点的在线值迭代贝叶斯增强学习无线传感器网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,动态不确定环境下的智能体在线规划和学习引起了科学界的极大关注,已就智能体在决策时必须考虑各种不确定性作为设计健壮系统的必备条件而达成共识。部分可观察马尔可夫决策过程(Partially Observable Markov Decision Processes,简称POMDPs)为智能体在动态不确定环境下的序贯决策提供了一个理想的模型,该模型可以对传感器噪音、丢失信息和部分观察信息等不确定性信息提供鲁棒性建模,进而最优化序贯策略。然而,基于POMDPs的智能体在线规划与学习常陷入信念状态空间“维数灾”和“历史灾”问题,造成现有算法仅适用于小规模问题,难于应用到大规模实际工程中。本文针对上述问题,重点研究信念状态空间压缩方法、在线规划和在线学习方法,并将本文方法应用到无线传感器网络能量高效领域。主要研究成果和创新点如下：(1)提出一种基于非负矩阵分解更新规则的可分解POMDPs信念状态空间降维算法针对求解可分解POMDPs规划问题时遭遇的“维数灾”问题,提出一种基于非负矩阵分解更新规则的可分解POMDPs信念状态空间降维算法。首先,根据POMDPs的结构特性,对状态、观察和动作进行可分解表示,利用动态贝叶斯网络的独立关系对信念状态空间进行压缩,从而降低信念状态空间的稀疏性。然后,采用信念状态空间值直接降维方法进行降维,利用非负矩阵分解更新规则来更新信念状态空间,从而不但避免Krylov迭代,加快降维速度,而且保留了值函数分段线性凸特性,使得降维前后值函数不发生改变。仿真结果表明,该算法具有较低误差率和较高收敛性。(2)提出一种基于点的POMDPs在线值迭代算法针对POMDPs序贯决策遭遇的“历史灾”问题,提出一种基于点的POMDPs在线值迭代算法。该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,从而加速问题求解；采用分支界限裁剪方法对信念状态与或树进行在线裁剪；提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算。仿真结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求。(3)提出一种基于模型的可分解贝叶斯增强学习算法针对POMDPs在线学习面临的学习参数巨大、算法收敛速度慢等问题,提出一种基于模型的可分解贝叶斯增强学习算法。首先,将学习参数进行可分解表示,降低学习参数的个数；然后,根据智能体先验知识和观察数据利用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系；最后,采用基于点的增量裁剪方法实现算法的快速收敛。仿真结果表明,该算法能够满足实时系统性能的要求。(4)提出一种基于POMDPs的无线传感器网络能量高效策略无线传感器网络能量高效策略是目前无线传感器网络面临的难题。针对无线传感器网络节能问题,应用本文提出的方法,首先,提出一种基于广义逆非负矩阵分解的无线传感器网络能量高效通信算法,采用非负矩阵分解方法对奇异值分解后的特征空间进行降维。然后,提出一种基于信念重用的无线传感器网络能量高效跟踪算法,针对现有跟踪算法误差较大问题,采用最大报酬值启发式方法获得跟踪性能的近似最优值。针对传感器能量消耗过大问题,采用信念重用方法,不仅可以减少传感器通信能量,而且还能够进一步降低POMDPs值函数误差,提高跟踪性能。图41幅,表11个,参考文献172篇。

其他文献

公务员工作压力、情绪管理与身心健康关系的研究

目的:了解公务员工作压力、情绪管理与身心健康的关系。方法:采用工作压力问卷、情绪管理问卷和身心健康问卷对在职公务员进行调查和测量。结果:(1)工作压力总分以及工作负荷

期刊

工作压力情绪管理身心健康公务员

对当前学校思想政治理论课程建设的几点思考

学校思想政治理论课教师座谈会的召开,引领新时代思想政治理论课程建设改进。分析当前思想政治理论课建设面临的机遇与问题,探讨当前思想政治理论课建设措施与手段,具有重要

期刊

思想政治理论课机遇问题思考

大数据时代的服饰销售手段分析

服饰行业经过多年的发展,大数据背景下的服饰企业开始了自主品牌发展之路,为此营销成为各类服饰企业摆在首位的大事,在此基础上营销手段的选择显得尤为重要。现阶段常用的销

期刊

服饰营销手段

北京市社区卫生服务中心绩效工资实施效果研究

研究目的深入分析北京市社区卫生服务中心实施绩效工资对医务人员收入和机构服务提供的影响,探讨绩效工资实施过程中存在的问题及其原因,并提出有针对性的政策建议,为进一步

学位

社区卫生服务中心绩效绩效工资效果

基于稀疏特征的连轧机故障信号分离方法

连轧机组的稳定性对于保障轧制产品的质量精度起着决定性的作用,连轧机组中监测各轧机状态的信号具有强耦合性,从复杂的信号中分离出各轧机独立的状态信号,对连轧机组的状态

期刊

连轧机稀疏特征稀疏分解盲源分离故障诊断

刺槐花茶饮料工艺研究

以刺槐花和红茶为主要原料研制新型花茶饮料,通过单因素及正交试验确定最佳工艺参数及配方。结果表明,刺槐花酶解液:茶水为1∶8,L-抗坏血酸用量为0.02%,柠檬酸用量为0.2%,阿

期刊

刺槐花红茶饮料工艺

宫腔镜联合B超在诊断二次剖宫产术后子宫切口憩室中的价值

目的探讨宫腔镜联合B超在诊断二次剖宫产术后子宫切口憩室中的应用价值。方法对2012年5月~2013年5月有二次剖宫产术史的38例进行宫腔镜检查,对剖宫产子宫切口宫腔镜下图像和

期刊

宫腔镜B超剖宫产切口憩室

DNA分析技术及其在植物系统学研究中的应用

ＤＮＡ分析技术及其在植物系统学研究中的应用贺新强，李法曾（山东师范大学生物系，济南２５００１４）ＤＮＡＡＮＡＬＹＺＩＮＧＴＥＣＨＮＩＱＵＥＳＡＮＤＩＴＳＡＰＰＬＩＣＡＴＩＯＮＩＮＰＬＡＮＴＳＹＳＴＥＭＡＴＩＣＳＲＥＳＥＡＲＣＨ￥ＨｅＸｉｎ－ｑｉａｎｇ...

期刊

植物系统学李法曾基因组DNA系统学研究

新世纪,新“风景”——论方方近年小说创作的新特点

本文论述了新世纪以来,方方小说出现的值得注意的新倾向。具体表现为:由描绘外部现实的“新写实”到刻画主体人的深层心理的转变,由建构文本、主题的现代性到解构文本、主题

期刊

现代性方方小说创作观

加强医学院校学生闲暇教育之对策

医学本科生较专科生的最大特点是学制延长,学生自主支配的学习、生活时间相对增多。闲暇时间的大量增多,为学生个性的自由发展提供了可能性。如何指导医学生科学管理闲暇时间

期刊

闲暇教育医学本科引导环境

动态不确定环境下的智能体序贯决策方法及应用研究

与本文相关的学术论文