若干模型的分位数变量选择

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:ffftty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分位数回归和变量选择方法LASSO提出以来,由于其稳定的估计,优良的估计效率得到了广泛应用.分位数回归能够从不同角度分析数据,变量选择的提出使模型具有了处理高维数据的能力.本文主要研究在复杂情况下的分位数回归变量选择,即医疗费用数据和离散数据.由于个体观察的相关性以及分布不连续导致针对以上两种数据进行分位数回归以及变量选择相对困难.本文根据学者在该领域的相关研究,提出了针对以上两种特殊数据进行分位数回归以及变量选择的方法,并验证其有效性.对于医疗费用数据,采用部分非线性单指标模型(PNSIM)进行建模,并采用两步法进行系数估计和变量选择.第一步采用基于样条的两步估计方法对模型的非参数部分进行估计,当非参数可加部分为阶可导时,使用样条方法得到的估计量以的速度收敛.并且该方法能够解决维数祸根问题.第二步在求得非参数部分的估计后,再进行系数估计以及变量选择.部分非线性单指标模型具有良好的灵活性,具有以往提出模型的大部分优点.对于离散数据,通过构造连续随机变量,使其分位数与响应变量分位数一一对应,进而能够使用传统分位数方法进行处理,并在此基础上进行变量选择.本文按照如下结构展开.第一章为文献综述,介绍近年来该领域的发展以及相关学者的研究.并且介绍本文的研究内容和创新之处.第二章的重点在于使用部分非线性单指标模型对医疗费用数据进行建模,运用基于样条的估计方法对可加模型的非参数部分进行估计,并且在此基础上进行系数的估计以及变量选择,本文在这里采用自适应LASSO惩罚项进行变量选择.章节最后给出相应的迭代方法,模拟,实例分析以及相关渐近性质的证明.第三章的重点在于对离散数据进行分位数回归变量选择.通过对响应变量进行恰当的处理,使传统分位数回归方法能够应用到离散数据.在此基础上再进行变量选择.本章最后给出相应的模拟,以验证提出方法的有效性.迭代算法和相关渐近性质的证明亦在文中给出.第四章给出本文总结,以及未来可能的研究方向.综上,本文主要介绍对医疗费用数据用部分非线性单指标模型(PNSIM)进行建模.对于离散数据,将其进行转换处理后再进行自适应LASSO变量选择.文中给出的估计量均具有良好的性质,并且避免了维数祸根的问题,对于处理高维解释变量具有一定的优越性.从计算效率来看,第二章中的非参数部分的估计最终转化为对相关线性模型的求解,避免了多次迭代,极大的提高了运算速度.
其他文献
利用逐日的ECMWF的ERA-40再分析资料,对1957-2002年期间的20次极涡转移型、11次极涡分裂型强平流层爆发性增温(SSW)过程以及21次弱增温过程分别做了合成分析,研究了这三类爆
油菜素内酯(BRs)是一类有广泛生理效应的植物激素。目前,BR对植物气孔运动的效应及其机制均未完全清楚。本文以拟南芥野生型及相关突变体为材料,借助表皮条分析和激光共聚焦
为了解决GRAPES(全球/区域同化及预报系统)模式动力框架中出现的极点问题并提高数值计算的效率,本文利用阴阳网格研发基于准均匀网格的非静力三维GEAPES模式动力框架。动力框
采用基于密度泛函理论的第一性原理计算方法,使用Dmol3程序软件包对中性Cu11X2(X=Sc、Ti、V、Cr、Mn、Fe、Co、Ni、Cu、Zn混合团簇进行系统的计算研究。主要内容及结论如下:(
本文利用雷达探测基数据对人工增雨效果物理检验作了实用探索研究,并结合地面降水和作业天气条件进行个例分析。对山东泰安地区近几年降水情况分析发现,泰安春季较易发生干旱
分子势能函数是在波恩-奥本海默(B-O)近似下对分子性质的完全描述,即描述分立能级、几何结构及电子结构与光谱性质,不仅是原子分子碰撞反应动力学研究的前提条件,而且在分析
在粒子物理学中,自标准模型(SM)建立以来,物理学家们着力于通过大量精确实验来检验其正确性。随着过去几十年里实验数据的不断积累、丰富,SM的理论预言已经几乎逐一被实验所
BDS目前只公布了B1频点数据,因此民用BDS接收机均是单频接收机,GPS民用接收机也以单频接收机为主。单频接收机在定位精度、稳定度等方面很难与双频甚至三频接收机相比,为提高
原子自旋压缩的研究对于抑制量子噪声,产生多体纠缠等方面都有极其重要的意义。本文利用朗之万理论,考察二能级原子系综和一个单模光场相互作用情况下的原子自旋压缩。我们考
布尔网络是研究基因调控网络的一种非常重要的模型,通过时序数据推理基因之间的调控关系是研究网络动态行为和干预策略的基础。现有的预测研究主要集中在基因之间的调控关系,