半Markov决策过程的研究进展

来源 :中国科学:数学 | 被引量 : 0次 | 上传用户:chicagousa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文综述半Markov决策过程(SMDP)理论的发展现状,主要介绍SMDP无限阶段期望折扣报酬准则、长期平均准则、有限阶段期望报酬准则、首达目标期望报酬准则、概率准则、受约束问题和均值-方差准则的研究工作,着重阐述这些优化准则的背景、意义、主要研究进展及有待研究的问题.最后,展望SMDP未来的一些潜在研究方向和相关问题.
其他文献
本文提出了一种针对人脸跟踪识别的解决方案,并将该方案应用于计算机自动锁屏。系统功能包括:目标在计算机前时不锁屏;目标离开计算机时锁屏;有其他人从计算机旁边经过或从后面靠近时告警或锁屏。主要研究内容包括检测模块、学习模块、轨迹分析模块以及多目标聚类模块。经过大量实验验证,系统平均运算速度为35m s/帧,成功率达到了97%以上,满足实时性和准确性要求。该研究对计算机保密行业起着重要的作用。
期刊
~~
期刊
可信平台模块是可信计算的核心,为建立可信终端提供了可信根。身份认证密钥是一个代表可信终端身份的签名密钥。当前,大多数认证协议在验证对方身份时,要求对方对指定数据进行签名,如SSL协议。由于AIK只能对TPM内部产生的信息做签名,无法满足认证协议的要求,本文提出一个基于TPM的设备认证方案,通过引入新的密钥—设备用户密钥,以及基于SKAE extension的设备用户证书,该方案满足了认证协议的要求
期刊
微软对XP"停服"本应是自然的产品更新换代,却在我国变成了一件重大信息安全事件。这说明我国信息、通信产业大而不强,仍需要在基础理论和关键技术方面长期默默耕耘。在中央网络安全和信息化领导小组的领导下,齐心协力强力推动自主知识产权软硬件核心技术的发展,实现核心软硬件产品的自主、安全、可控才是根本出路。
期刊
今年的"3·15"名单中,电话诈骗、银行漏洞、实名制虚设、免费WiFi陷阱等四项信息安全问题被曝光,引发网友热议。电话诈骗中国移动、中国铁通为骚扰电话提供各种支持,甚至给"10086、110"之类诈骗电话开绿灯,对于诈骗电话显示虚假主叫号码,仍然允许透传。@噗噗噗的噗:客户个人信息都被卖出去了!!这是个关键!我们个人信息安全得不到保护!
期刊
侯振挺教授1936年3月出生于河南省密县(现新密市),现任中南大学教授、博士生导师、湖南省科学技术协会名誉主席、湖南省数学会名誉理事长.1955年秋,侯振挺考入唐山铁道学院(现西南交通大学)铁道工程系.由于经济困难,1956年秋至1957年秋曾休学一年,在铁道部速成中学任数学教员.这一年,通过教学实践他进一步熟练了初等数学的内容、方法和技巧,同时他还自学了数学分析、线性代数、抽象代数等现代数学的基
期刊
本文概述新近对于生灭过程和一维扩散过程在如下三个问题研究中所取得的若干代表性成果:四种情形的主特征值、等谱算子和离散谱;得到了在各种情形下主特征值统一的基本估计,其上、下界之比不超过4;给出了一维情形谱离散的简明判别准则.
期刊
本文应用预解算子的分解定理来研究带有限个瞬时态的Kolmogorov Q-矩阵.此模型是Kolmogorov等人早期研究的一类Q-矩阵的推广.但本文的讨论不限于存在唯一性,而是更着重于对过程性质的深刻分析.在给出一个极易验证的存在唯一性条件后,本文证明Kolmogorov Q-过程必定是常返的.一个非常好的过程遍历的充分必要条件也在本文给出.在此过程遍历的条件下,过程极限分布的简洁清晰的显式也被展
期刊
本文使用Malliavin分析与有限跳逼近方法,对于一类由从属Brown运动驱动的随机微分方程的半群建立Driver型分部积分公式.作为该公式的应用,本文得到半群的推移Harnack不等式以及热核估计.主要结果应用于由α稳定型过程驱动的随机微分方程.
期刊
考虑随机树上λ-随机游动.现已知其速度存在并且不超过(m-λ)/(m+λ),其中m是平均子代数.若进一步考察速度与子代分布的关系,所有例子表明速度关于方差是单调的.常返概率是与速度密切相关的指标.本文讨论一族子代分布,其平均子代数m是固定的,证明了常返概率具有某种单调性,与预设的目标一致,更多相关问题有待进一步研究.
期刊