最小二乘时序差分中的正则化:罚函数和贝叶斯的比较

来源 :武汉大学 | 被引量 : 0次 | 上传用户:cqsuifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文系统介绍了一系列最优化带罚函数的最小二乘时序差分的方法,给出了它们模型的数学表达形式和求解方法.LSTD-42将经典最小二乘时序差分进行了正则化的扩展,使得求解过程变得更加稳定;而LSTD-l1能从系数的稀疏性中获益;LSTD-l22和LSTD-l21则将投影布和不动点步分开,添加不同的惩罚约束.并将其的稀疏约束从l1惩罚扩展到了在一般特征选择中表现更好的非凸罚函数SCAD和MCP.本文从贝叶斯的观点,提出了用带稀疏先验的层次贝叶斯模型bLSTD-u和bLSTD-ω,推导得到了它们的全条件后验分布,依此可以用吉布斯采样的方法高效求解,并给出了基于经验贝叶斯的极大似然估计和基于伽马先验导出全条件后验的这两种正则化参数推断的方法.此外.本文还比较了罚函数方法和贝叶斯推断在投影步的不同之处,并在数值实验部分,在两个经典的强化学习问题上比较了最优化方法和贝叶斯推断方法的性能.实验表明,带稀疏先验的贝叶斯推断能取得与带稀疏l1惩罚的最优化方法相近的结果.且远远优于没有利用稀疏性的简单l2惩罚.
其他文献
经营环境不确定性可能提高企业非生产性支出和税费支出,从而挤占民营企业生产性资源,降低民营企业经营活力。本文以2012年全国私营企业调查数据为样本,分析地方政策不确定性
当事人中心主义诉讼模式是实现司法公平公正的关键。在这一模式下,当事人诉讼权利与实体利益的实现,需要借助于专业律师的帮助。因此有必要在民事诉讼中构建强制律师代理制度
媒介融合背景下对广播电视台记者采访工作提出了新要求:提高采访速度、促进沟通、丰富采访方式、扩大采访范围。在这种情况下,记者应该做到利用新媒体挖掘传播新闻、利用互联
近些年来,随着经济的发展和科技的进步,物流在日常生活中所占据的位置越来越重要了。其对于人们的生活也产生了较大的影响。物联网下的智慧物流系统对于人们来说并不是十分的
郑玄遍注群经,建立以《三礼》为核心的包罗甚广的经学理论体系,即所谓“郑学”,历代学者对此都有一定认识与评价。乔秀岩先生在其著作中专门探讨郑学,提出了“结构取义”、随
研究背景酒精性肝病(alcoholic liver disease,ALD)是乙醇滥用相关的中毒性肝损伤性疾病,其可以从脂肪变性逐渐进展为肝炎、肝纤维化、肝硬化乃至肝细胞癌。研究发现,ALD不仅
随着显示行业的持续进步和发展,场效应晶体管(FET)因作为平板显示的核心器件,其发展备受瞩目。目前,通常采用非晶硅FET和低温多晶硅FET作为液晶显示器(LCD)像素的开关器件。而对于下一代显示技术的有源矩阵有机发光二极管(AMOLED)来说,每个像素分别引入两个FET作为开关和驱动FET,这就对FET的性能提出了更高的要求(载流子迁移率在10 cm2/Vs以上)。金属氧化物型FET因其优异的电学
骷髅造型经历了漫长的变革,骷髅造型作为死亡的象征从出现人类的那一天开始,骷髅造型便伴随着人类文明的发展,可以说骷髅造型的发展,便是人类死亡观的简史。人类史前时代处于
采用梅花针配合中药内服治疗脂溢性脱发132例,结果痊愈率44.7%,总有效率为97%。认为该疗法操作简便易行,无痛苦,无毒副作用,成本低,具有推广价值。
目的观察左卡尼汀对维持性血液透析合并肾性贫血患者氧化应激的干预作用。方法选取维持性血液透析合并肾性贫血患者30例,随机均分为两组,A组:每周透析2次(4 h/次);B组:每周透析3