平均报酬相关硕士博士期刊学术论文

平均报酬相关论文

平均报酬准则强化学习方法研究

该文研究基于平均报酬准则的强化学习问题及其各种学习算法,主要成果可概括如下:即时差分学习:该文首次给出了基于平均报酬准则问......

学位

强化学习平均报酬动态规划函数近似 Markorv决策问题压缩映射随机逼近人工神经网络机器学习机器学习即时差分学习 R学习

结合TD(0)的马尔可夫链扰动分析求解算法

　　本文分析了马尔可夫链转移矩阵的扰动对平均报酬的影响,讨论了系统敏感性的计算.并结合TD(0)算法,给出马尔可夫链性能敏感性的......

会议

马尔可夫链扰动分析在线算法性能敏感性系统敏感性转移矩阵数值计算平均报酬简化算法

基于状态软集结的相对值迭代算法(英文)

在大规模随机控制问题中 ,值函数逼近是一种克服维数灾的方法 .考虑平均模型马氏决策规划 (MDP)的状态软集结相对值迭代算法 ,在Sp......

期刊

迭代算法动态规划决策规划马氏决策规划紧凑表示状态集结误差估计平均报酬函数逼近随机控制

消除农民工歧视重在提高其城市适应能力

西方经济学的“歧视”出现在平均能力相等(相等的生产能力)的工人获得不同的平均报酬的时候.关于歧视的定义,现代劳动经济学认为,......

期刊

农民工歧视重在提高城市劳动力市场歧视劳动经济学职业选择生产能力人力资本人口群体平均报酬视模型教育歧视非竞争性性差别统计性史密斯生

石景山区从业人员报酬增速较快行业间报酬差距拉大

1-7月全区从业人员平均报酬为1.28万元,同比增长19.6%.其中,在岗职工平均工资为1.31万元,同比增长20.6%.......

期刊

石景山区从业人员平均报酬行业增长在岗职工平均工资

多步R学习算法

目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均......

期刊

强化学习平均报酬 R学习 Markov决策过程即时差分学习 reinforcement learning average reward R-learning

基于状态软集结的相对值迭代算法

在大规模随机控制问题中,值函数逼近是一种克服维数灾的方法.考虑平均模型马氏决策规划(MDP)的状态软集结相对值迭代算法,在Span压......

期刊

动态规划马氏决策规划紧凑表示状态集结平均报酬 dynamic programming Markov decision processes compact

多步 R 学习算法(英文)

目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均......

期刊

强化学习平均报酬 R学习 MARKOV决策过程即时差分学习 reinforcement learning average reward Rlearnin

参数Markov决策过程的随机逼近算法

讨论平均报酬参数马氏决策过程的随机梯度算法,利用与折扣报酬的关系,给出了目标函数的梯度的一个新的表达式.同时得到了基于单一......

期刊

参数Markov决策过程随机逼近算法随机梯度算法折扣报酬平均报酬收敛性 parameters Markov decision processes st

平均报酬指标多步递推最小二乘即时差分学习

对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究．近似器由权值进行增量更新的固定特征函数线性加......

期刊

即时差分学习平均报酬函数近似最小二乘递推 temporal-difference learning average reward functio

企业家激励与报酬的合理确定

企业家的报酬形式有多种多样,每种形式都有其优点和缺点.以发达国家企业家的平均报酬为其人均GDP的倍数作为基准,通过一定的方法可......

期刊

企业家平均报酬股权股票期权 entrepreneuraverage rewardownership rightstock options

确定我国企业家合理报酬的一种简易方法

以发达国家企业家的平均报酬为其人均GDP的倍数作为基准,通过一定的方法,可以确定出我国企业家合理的平均报酬、基本工资,由此,还......

期刊

企业家薪酬股权股票期权 GDP 基本工资平均报酬奖金 entrepreneur average reward ownership right stoc

乡镇企业劳动用工模式的经济学考察

【正】 1.乡镇企业作为我国国民经济的新生长点,在我国当代经济框架中建立了一种具有独特理论与实践价值的经济发展新模式。作为这......

期刊

乡镇企业职工用工模式劳动成本企业劳动用工制度平均报酬农业劳动者用工形式农业剩余劳动力企业成功市场化

平均报酬准则下的逆向强化学习算法研究

强化学习中报酬函数主要是根据经验人为设定的，难以保证最优性，学徒学习同样需要求取报酬函数。逆向强化学习通过学习演示轨迹或专家......

学位

逆强化学习策略马尔可夫决策过程特征基函数平均报酬

“内卷化”概念辨析

...

期刊

平均报酬生产过程报酬递减内卷化劳动报酬 “内卷化” 小农家庭长江三角洲格尔茨概念辨析

社会主义劳动力“市场交易”与按劳分配原则

【正】马克思在《资本论》中关于商品化与市场化的理论告诉我们:在高度发达的商品经济中,商品关系的深化与交换原则的渗透,商品的......

期刊

劳动力平均报酬按劳分配社会主义

看过本文同时还关注