时间不相容的随机控制问题和弱形式的正倒向随机微分方程

来源 :山东大学 | 被引量 : 0次 | 上传用户：zc81065442

【摘要】

：

在本篇论文中,我们主要研究了两类不满足Bellman’s最优性原理的时间不相容随机控制问题：一个是随机系数的时间不相容最优控制问题,另一个是部分观测的时间不相容递归最优控制

【作者】

：

王海洋

【出处】

：

山东大学

【发表日期】

：

2016年期

【关键词】

：

时间不相容平衡控制随机平衡HJB方程 Kahan-Bucy滤波方程最优保费问题最大值原理递归最优控制问题反射倒向随机微分方程弱形式的正倒向随机微分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在本篇论文中,我们主要研究了两类不满足Bellman’s最优性原理的时间不相容随机控制问题：一个是随机系数的时间不相容最优控制问题,另一个是部分观测的时间不相容递归最优控制问题。另外,我们还研究了一类受障碍约束的递归最优控制问题,它的代价泛函由反射倒向随机微分方程(BSDE)的解给出。我们建立了该问题的近似最大值原理及其最优解和近似最优解的充分条件。进而,通过考察与随机最优控制理论的紧密联系以及其它的实际应用,我们引入了一类新型的正倒向随机微分方程(FBSDEs),称为弱形式的FBSDEs。我们还进一步讨论了这类方程解的适定性。下面我们给出本文的主要内容和结构框架。在第一章中,我们简明扼要地介绍了本文所研究问题的历史背景,研究动机以及理论工具。在第二章中,我们研究了一类随机系数的时间不相容最优控制问题。通过构造多人微分对策问题的方法,我们得到了一族刻画平衡值函数的倒向随机发展方程,称为随机平衡Hamilton-Jacobi-Bellman(HJB)方程。在适当的条件下,该方程存在唯一解,从而可以给出闭环形式的时间相容平衡控制。另外,我们还相应讨论了特殊并且重要的线性二次时间不相容控制问题。在第三章中,我们研究了一类部分观测的时间不相容递归最优控制问题。我们首先研究了相应的完全观测的时间不相容递归最优控制问题,得到平衡控制的验证定理和该问题的Hamiltonian系统,并且还进一步建立了该Hamiltonian系统的Kalman-Bucy滤波公式。从而由倒向分离原理,我们可以给出部分观测的时间不相容递归最优控制问题的平衡控制,它是状态滤波估计的反馈调节。另外,作为理论的应用,我们还研究了一个制订最优保险费用的问题,给出平衡保费的显式表示。在第四章中,我们研究了一类受障碍约束的递归最优控制问题,其值函数由反射BSDEs的解给出。通过一族带惩罚的BSDEs逼近一个反射BSDE的方法,我们建立了该问题的近似最大值原理。另外,我们还分别得到了该问题最优解以及近似最优解的充分条件。最后,我们用一个混合最优控制问题的例子说明所得理论的实际应用,并给出最优控制和最优停时。在第五章中,我们引入了一类新型的弱形式的正倒向随机微分方程。通过考察在期权对冲理论,非线性Feynman-Kac公式以及最大值原理和动态规划原理的关系问题中的应用,我们可以看到此类FBSDEs是自然合理的。特别地,我们用两个例子说明这类新型的弱形式的FBSDEs联系着弱框架的随机最优控制问题,它们在相对强框架问题更一般的条件下存在最优解。另外,我们还讨论了这类弱形式的FBSDEs解的适定性。接下来,我们给出本篇论文的主要结论。1.随机系数的时间不相容最优控制问题及随机平衡HJB方程。对给定的完备概率空间(Ω,F：P)和其中相互独立的1-维和d-维布朗运动{Wt,t≥0},{Wt1,t≥0},考虑如下的控制系统：以及代价泛函：其中b(x,v,s):Rn×Rk×[0,T]→Rn,σ(x,s):Rn×[0,T]→Rn,π(x,s):Rn×[0,T]→ Rn×d,L(x,v,s,t):Rn×Rk×[0,T]×[0,T]→R均为确定性函数,且h(x,t,№) Rn×[0,T]×Ω→R是FTW-可测的随机变量。[t,T]时间段内的容许控制v是取值于U(?)Rk的FtW,w1-适应随机过程,且E[∫tT|vs|2ds]<+∞。我们称该随机系数的时间不相容控制问题为问题(N)。通过(2.7)定义的关键性映射ψ,构造一列依赖于分划Ⅱ的多人微分对策问题并考察步长||Π||→0时的情形,我们建立了如下的随机平衡HJB方程,它是一族含参数的倒向随机发展方程：其中H=L2(Rn),V={u∈L2(Rn):Du∈L2(Rn)}且由压缩映射方法,我们可以得到：定理2.3.1.若假设2.3.1和2.3.2成立,则存在唯一的((?).(.;τ),A.(.;τ))∈M2(τ,T;V)× M2(τ,T;H),0≤τ≤T,满足随机平衡HJB方程(3)。从而我们可以给出定义2.2.1意义下问题(N)的时间相容平衡控制和平衡值函数：定理2.3.2.若假设2.3.1,2.3.2和2.3.3成立,则随机平衡HJB方程(3)的解(?)t(x；t)是初值为(x,t)∈Rn×[0,T]的问题(N)的平衡值函数,相应的时间相容平衡控制由(2.29)给出。另外,我们还研究了一类时间不相容的线性二次(LQ)控制问题,其动力系统为：且代价泛函为其中对任意的s∈[0,T],A(·):C(·),G(·)∈Rn×n,S(·),F(·),H(·)∈Rn×k,Q(·)是取值于Sn的FW-可测的非负有界随机变量；对任意的(s,t)∈D[0,T],R(·,·)∈Sn是非负的,N(·,·)∈Sk是正定的。当F三0时,我们充分利用其二次型结构,建立了该时间不相容LQ问题的Riccati-Volterra积分方程系统：关于(4)解的存在唯一性,我们有：命题2.4.1.若进一步假设则(4)存在唯一解。因此,对于该时间不相容的线性二次控制问题,我们有如下结论：定理2.4.1. 若命题2.4.1中的假设全部成立,则初始状态为(x,t)∈Rn×[0,T]的平衡值函数为其中K(·)满足(4)。时间相容平衡控制由(2.39)给出。2.部分观测的时间不相容递归最优控制问题及应用。对给定的完备概率空间(Q,F,P),及其中的2-维标准布朗运动{(W1(t),W2(t)),t≥ 0}和独立的Gaussian型随机变量ζ,我们首先考虑完全观测的时间不相容递归最优控制问题,其动力系统为：且代价泛函为其中A(·),B(·),C1(·),C2(·),a(·),b(·),c(·),f1(·),f2(·)均为取值于R的Ftζ,W1,W2-适应随机过程,且g,h,μ1,μ2均为常数。容许控制u(.)是取值于R的Ftζ,W1,W2-适应随机过程,且E[∫0T|u(t)|4dt]<+∞。我们记全体容许控制构成的集合为U。在(Q,F)空间中定义一个新的概率测度Q：由Girsanov’s定理,如下定义的过程{(U(t),V(t)),t≥0):是2-维的Q-标准布朗运动。从而通过计算,代价泛函(6)可以改写为：-he∫tTb(τ)dτ((EtQ[X(T)])2-(μ1Xt+μ2)e∫tTb(τ)dτEtQ[X(T)],其中EtQ[·]=EQ[·|Ftζ,W1,W2]表示(Q,F,Q)空间中关于Ftζ,W1,W2的条件数学期望。根据最大值原理中的针状变分思想,我们得到了定义3.1.1意义下的该时间不相容控制问题的平衡解的充分条件：定理3.1.1.令假设3.1.1成立。若存在随机过程{(X*(s),u*(s)),0≤s≤T}和一族随机过程{(p(s;t),k1(s;t),k2(s;t)),t≤s≤T},0≤t≤T,使得对任意的t∈[0,T),满足下述Hgmiltonian系统以及Λ(·;t)=B(·)p(·;t)+2c(·)e∫tb(r)dru*(·)满足(3.8),并且u*∈U,则u*是一个平衡控制。但是在很多实际问题中,我们不能直接观测到(8)中的(X*,p,k1,k2),而是观测一个与X*(·)相关的过程Z(·),其动力系统为：为了得到(X*,p,k1,k2)关于观测Z(·)的最优估计(X*,p,k1,k2),我们解耦合Hamilto-nian系统(8)并通过经典的正向SDEs滤波理论可得：定理3.2.1.若假设3.1.1和3.2.1成立,则Hamiltonian系统(8)解的最优滤波估计{(X*(s),p(s;t),k1(s;t),k2(s;t)),t≤s≤T},0≤t≤T由(3.21),(3.22),(3.24)以及(3.25)给出,其中M(·),N(·),r(·)和φ(·)分别为(3.16),(3.17),(3.18)和(3.19)的解。下面考虑相应的部分观测的时间不相容递归最优控制问题。由倒向分离原理,我们分离状态和观测方程如下：并定义容许控制u(·)为取值于R的FtZ和FtZ1-适应随机过程,且E[∫0T|u(t)|4dt]< +∞。结合前面的结论,我们可以得到该部分观测的时间不相容递归最优控制问题的平衡解：定理3.3.1.若假设3.1.1和3.2.1成立,则部分观测的时间不相容递归最优控制问题的平衡控制为(3.31),其中M(·),N(·),r(·)和φ(·)分别为(3.16),(3.17),(3.18),(3.19)的解,且X’(·)是相应于平衡控制(3.31)的状态滤波估计,由(3.33)给出。最后,作为理论结果的应用,我们研究了一个制订最优保险费用的实际问题。考虑一家保险公司,其现金流过程X(·)为：其中x0>0为初始资金,无风险利率δ(·)>0,责任率l(.)>0是单位时间的预期责任,保费率v(·)是控制变量,波动率σ(·)>0表示责任风险。这家公司希望制订最优保费率v(·)最小化代价泛函：其中,常数β是折现因子,常数co是某个预定的目标,常数G,Q以及随机过程R(·)是为了使代价泛函(13)一般化的权重因子。但是决策者通常不能直接观测到现金流X(·),而可以观测到公司的股票价格S(·),它与X(·)的关系如下：其中,常数a,c为相关系数,随机过程ρ(·)为波动率。通过变量代换及计算,该控制问题可以转化为前面研究的部分观测的时间不相容递归最优控制问题。从而我们可以得到平衡保费策略：定理3.4.1.若假设3.4.1和3.4.2成立,则可观测的平衡保费策略为其中J1(·)和φ1(·)分别由(3.58)和(3.59)给出,且X*(.)是相应于平衡保费策略的现金流滤波估计,满足(3.52)。3.一类受障碍约束的递归最优控制问题的随机最大值原理。对给定的完备概率空间(Q,F,P),和其中的d-维标准布朗运动{Wt,t≥0},考虑如下的正向控制系统：和一个受控的反射BSDE:以及代价泛函其中α∈Rd是一个给定的常数,且b(t,x,v):[0,T]×Rd×Rl→Rd,σ(t,x):[0,T]×Rd→ Rd×d,f(t,x,y,v):[0,T]×Rd×Rm×Rl→Rm,h(t,x):[0,T]×Rd→Rm,g(x):Rd→ Rm,γ(y):Rm→R均为确定性函数。容许控制v是取值于紧集U∈Rl的FtW-适应随机过程,且E[∫0T|vt|2dt]<+∞。记全体容许控制构成的集合为U。我们称这个受障碍约束的递归最优控制问题为问题(P)。假设u∈U是问题(P)的一个最优控制,且{xt,0≤t≤T},{(yt,zt,kt),0≤t≤T}分别为相应的(16)和(17)的解。由于引入了一个连续的增过程{kt},我们不能直接利用针状变分法得到问题(P)的最大值原理。首先,我们构造一族带惩罚的近似BSDEs逼近反射BSDE(17):其中n=1,2,…。从而由Ekeland’s变分原理,(4.8)给出了一列容许控制{un}n≥1和递减趋于0的数列{ε。}n≥1,使得{un}n≥1是问题(P)的近似最优解,且对每个n∈N,un∈U以及相应的(16)和(19)的解{xtn,0≤t≤T},{(ytn,ztn),0≤t≤T}是如下构造的辅助最优控制问题的最优解：问题(Pn) 对于正倒向随机控制系统(16)和(19),寻找容许控制v∈Uf最小化代价泛函但是(19)的生成元仅为Lipschitz连续却不可导,因此我们不能直接使用针状变分法。对任意的n,k∈N,定义光滑函数：其中φ,ψ为两个光滑化函数。现在,我们引入生成元光滑的BSDEs：其中n,k=1,2,…。类似地,由Ekeland’s变分原理,对任意给定的n∈N,(4.20)给出了一列容许控制{un,k}k≥1和递减趋于0的数列{δn,k}k≥1,使得{un,k}k≥1是问题(Pn)的近似最优解,且对每个n,k∈N,un,k∈U以及相应的(16)和(22)的解{xnt,k,0≤t≤T},{(ytn,k,ztn,k),0≤t≤T}是如下最优控制问题的最优解：问题(Pn,k) 对于正倒向随机控制系统(16)和(22),寻找容许控制v∈u最小化代价泛函从而由标准的针状变分法,我们有：命题4.2.1.令假设4.1.1,4.1.2和4.1.3成立。则对任意给定的n∈N,存在容许控制un是问题(Pn)的最优解,和常数ε。>0,以及一族容许控制{un,k}k≥1是问题(Pn)的近似最优解,和递减趋于0的数列{δn,k}k≥1,使得对任意的k∈N,1)d(un,k,un)≤(?);2)对任意的v∈U,其中xtn,k},{(ytn,k,ztn,k)}是相应于控制un,k的(16)和(22)的解,{Ptn,k},{Qtn,k}分别是(4.22)和(4.23)给出的伴随过程,且Hamiltonian函数Hn,k为结全Krylov’s不等式,我们考察当n∈N固定,k趋于∞时的情形,从而建立了问题(P)的近似最优控制的最大值原理：定理4.2.1.令假设4.1.1,4.1.2,4.1.3以及假设4.2.1,4.2.2成立,u∈U是问题(P)的一个最优控制。则存在一族容许控制{un}n≥1是问题(P)的近似最优解以及递减趋于0的数列{ε。}n≥1,使得对任意的n∈N,1)d(un,u)≤(?)；2)对任意的v∈U,其中{xnt},{(ynt,ztn)}是相应于控制un的(16)和(19)的解,{Ptn},{Qtn}分别是(4.33)和(4.34)给出的伴随过程,且Hamiltonian函数Hn为另外,利用Clarke’s广义导数,我们还可以得到问题(P)的最优解以及近似最优解的充分条件。定理4.3.1.若假设4.1.1,4.1.2,4.1.3以及假设4.3.1成立,u是一个容许控制,{xt,0≤ t≤T),{(yt,zt,kt),0≤t≤T}分别为相应的(16)和(17)的解。记τ*=inf{0≤t≤ T:yt=h(t,xt)},h(t,x)=h(t,x)1{t<T)+g(x)1{t=T}且令伴随过程{Pt},{Qt}满足以及如果H(t,.,.,Pt,Qt,qt.),h(t,.)和γ(·)均为凸函数,且对任意的t∈[0,τ*]和v∈U,则u是问题(P)的一个最优控制。定理4.3.2.若假设4.1.1,4.1.2,4.1.3以及假设4.3.2成立,对任意的n∈N,un是一个容许控制,{xtn,0≤t≤T},{(ytn,ztn),0≤t≤T}分别是相应的(16)和(19)的解。记令伴随过程{Ptn},{Qtn}满足以及如果Hn(t,·,·,Ptn,Qtn,qtn,·),γ(·)和g(·)均为凸函数,且对任意的t∈[0,T]和v∈U,则un是问题(P)的εn-近似最优控制,其中当n→∞时,{εn}n≥1递减趋于0。4.一类弱形式的正倒向随机微分方程。我们引入一类弱形式的正倒向随机微分方程：我们从理论结果以及实际应用的角度,给出了几个具体的例子,如例5.1.2,5.2.1和5.2.2说明此类弱形式的FBSDEs的研究动机,特别是它与随机最优控制理论的联系,并且(32)联系着一类拟线性抛物型PDE：定义弱形式的FBSDE(32)的解为：定义5.1.1.我们称(i)带域流的概率空间(Ω,F{Ft)0≤t≤T,P)和Ft-适应随机过程{(Wt,Xt,Yt,Zt,Nt),0≤t≤T}为弱形式的FBSDE(32)的弱解,如果它们满足(32),P-a.s.,W是P-标准布朗运动,N是与X正交的P-鞅,且No=0；(ii)一个弱解为半强解,如果(Y,Z)是FtX-适应的；(iii)一个弱解为强解,如果N=0,且(X,Y,Z)是FtW-适应的。利用相关的PDE(33),我们可以得到弱形式的FBSDE (32)解的适定性：定理5.3.1.令假设5.3.1成立。若PDE(33)存在经典解u∈C1,2,且(?)xu和(?)2xxu均一致有界,则FBSDE (32)存在强解。如果又有假设5.3.2和5.3.3成立,则强解唯一。定理5.3.2.令假设5.3.1,5.3.2和5.3.3成立。若PDE(33)存在粘性解u∈C0,0且b,σ不含z,则FBSDE (32)存在半强解。如果u∈C0,1,则当b,σ含有z时,(32)仍存在半强解。

其他文献

如何构建小学英语高效课堂

怎样提高教学效率?怎样提高教学质量?这是绝大多数教育工作者热切关注的两个话题。因为只有教学效率与教学质量提高了,教师才能教得轻松高效,保质保量地完成既定的教学目标;

期刊

小学英语高效课堂构建策略

凶狠的老板是猛药

凶老板多半有过人之处，信不信由你。对人凶狠是一种异形状态，他那么做，一定有本钱。当然，这种本钱部分是由于他的地位，或者说一种被强加的气场。连杜宪老师都说，每次陈道明老师演完

期刊

老板陈道明小人物本钱老师回家

领导干部要善于提升舆论引导力

当前，广大群众民主意识不断增强，要求落实知情权、话语权、监督权的热情高涨，新闻舆论的作用越来越重要。同时，部分干部受固有思维、传统经验、知识素养等方而的限制，与各类媒体打

期刊

领导干部舆论引导力民主意识新闻舆论知识素养知情权话语权监督权

十大产业枭雄

产权问题永远不能以革命方式解决。李经纬创造了“东方魔水”健力宝，15年雄踞中国“民族饮料第一品牌”。但“东方魔水”却不属于他自己。于是在企业转制中欲一口吞下健力宝全

期刊

大产业产权问题革命方式企业转制红塔集团悲剧人物健力宝李经纬

五种杀菌剂对库尔勒香梨腐烂病的防效

以库尔勒香梨腐烂病菌田间发病枝条为试材,采用生长速率法和刮除病斑后涂抹药剂的方法,研究了5种不同杀菌剂对库尔勒香梨腐烂病菌的影响。结果表明:室内毒力测定中阿米妙收、

期刊

杀菌剂库尔勒香梨腐烂病毒力测定

“做大”城市未必就是什么好事

这两天安徽省“三分巢湖”的举动引起了社会的关注，具体做法我们已经从新闻里看到了.

期刊

城市土地开发安徽城市发展城市建设

液相色谱法同步测定化妆品中6种邻苯二甲酸酯

采用甲醇超声提取,高效液相色谱-二极管阵列检测器(HPLC-DAD)同步测定化妆品中6种邻苯二甲酸酯类环境激素;探讨了流动相和色谱柱对6种邻苯二甲酸酯分离的影响,以及二极管阵列

期刊

超声提取高效液相色谱二极管阵列检测器化妆品邻苯二甲酸酯同步测定

创新大学生村官锻炼成才的良性机制

【正】大学生村官是我国政治制度下的一种特殊现象。2001年以来,全国近30个省、自治区、直辖市相继进行了大学生村官实践探索。从2008年开始,中央计划用5年时间选聘10万名高

期刊

良性机制村官计划中央计划人才工程创业政策农民观念出路问题村主任助理村务管理村级领导班子

政府试水自我限权

对于防不胜防的滥用裁量权，某地方法制办负责人举了一个他在调研中发现的例子：“有个案子，法定罚款是5万元以上50万元以下，依案情可按最低幅度5万元罚款。但执法人员知道处理过程

期刊

限权政府执法人员自由裁量裁量权负责人法制办罚款

领导干部财产申报的西、东、中部标本

党的十七届四中全会在强调要＂把反腐倡廉建设放在更加突出的位置＂的同时,提出了＂推进反腐倡廉制度创新＂的新要求。这既反映了中国共产党对反腐倡廉建设严峻形势的清醒认识,又为党

期刊

财产申报领导干部反腐倡廉建设标本制度创新反腐倡廉机制中国共产党党的十七大

时间不相容的随机控制问题和弱形式的正倒向随机微分方程

与本文相关的学术论文