报酬函数相关论文
近几年来,强化学习和学徒学习作为机器学习的两个子领域得到了极大的发展。在目前的强化学习技术中,报酬函数的自动构建是迫切需要......
本文鉴于市场上同一行业内部囚徒困境博弈的广泛存在,采用博弈论的分析工具来剖析同一行业内的企业行为,主要关注企业背叛行为并证......
根据马尔科夫决策过程和Q-learning算法,通过简化处理求解电梯群控系统在上行峰值期间的最优配置问题.给出电梯群控系统最优配梯的......
研究基于部分可观测随机过程的最优停时问题,且此部分可观测随机过程可由Kalman-Bucy滤波方法进行估计。而最优停时问题的报酬函数......
通过分析南开大学公司治理研究中心公开的中国公司治理指数数据,得出了几个结论:经理层治理水平连续三年不断提高;任免制度和执行保障......
提出了一种基于流演算的最优规划程序设计语言OPPLFC(optimal planning programming language basedon fluent calculus)。通过定......
超市模型已经成为解决大型网络资源管理问题的一个重要的数学工具,它具有操作简单、运行方便的特点,能对大型的网络资源进行实时控......
通过分析南开大学公司治理研究中心公开的中国公司治理指数数据,得出结论:经理层治理水平连续三年不断提高;任免制度和执行保障的发展......
<正>《契约理论与会计》(Contracting Theory and Accounting,以下简称《综述》)是Richard A.Lambert教授于2001年发表在《会计学......
决策就是从一个备选方案集中选择出若干个个体或群体偏好的方案。当面对复杂的决策问题时,单个决策者仅凭自身的经验和智慧往往难......
逆向强化学习是指通过专家行为获取潜在报酬函数的过程,进而可利用强化学习等优化理论得到最优的控制策略,因而可以实现对专家行为......
随着机器学习算法的发展,自主驾驶技术不断向前推进,将对未来的城市交通产生重要影响。自主驾驶任务的核心在于决策与控制算法,传......
知识密集型服务业集群和其它网络一样,也具有典型的小世界网络特征。在对知识密集型服务业集群的基本内涵和小世界网络应用现状分......
针对我国上市公司激励约束机制的发展明显滞后于经理层治理的发展问题,利用历史方法,分析了现有激励约束机制——年薪制、持股制和......