平衡纵向数据模型变量选择的相关算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:lm20090910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在不同时刻对于不同个体或者观测对象分别进行若干次重复观测,即得到了不同时刻对于不同个体的若干观测值,这类数据我们称其为纵向数据。平衡纵向数据是纵向数据的一类,在相同时刻对不同观测对象进行观测得到的数据,能反映不同个体随时间的变化情况,在医学、社会科学等研究中有广泛的应用。对此类数据进行分析研究时,自变量的选择是首要解决的问题。Lasso及其相关方法,在对变量压缩提取方面有较好的效果。  本文主要应用自适应La sso方法及其后续改进的自适应弹性网方法的思想,通过对目标函数添加约束来压缩回归系数,将影响较小的自变量的回归系数压缩为零,解决平衡纵向数据模型的变量选择问题。主要工作如下:  第一章深入探讨了平衡纵向数据的实际应用价值,分析了研究背景及平衡纵向数据变量选择的研究意义。  第二章介绍了在变量选择方面Las so相关方法的应用及发展。首先介绍了Lasso相关方法的思想,同时介绍了最小角回归算法,该算法能有效解决Lasso及相关方法中带有绝对值罚函数的计算问题。最后还介绍了具有组效应性质的弹性网算法、组Lasso方法以及具有Oracle性质的SCAD方法、自适应Lasso方法、自适应弹性网方法等。  第三章和第四章分别将自适应 Lasso方法、自适应弹性网方法引入平衡纵向数据模型的变量选择中,提出平衡纵向数据自适应 Lasso变量选择算法及平衡纵向数据自适应弹性网算法。同时研究分析了两种方法所具有的Oracle性质和组效应性质,并通过数值实验分别对两种方法进行了验证,分析了数值实验结果。  第五章对影响城市竞争力的主要因素进行了分析研究。选取了2011-2015年五年间二十座城市的二十八项指标的统计数据,通过对原始数据进行加工处理,利用第三章、第四章给出的算法进行分析,选出对城市竞争力影响较大的因素,通过实例分析验证了算法的有效性,并分析了结果。  最后在此基础上对文章进行了总结,并对后续研究方向提出了展望。
其他文献
在大规模科学计算与工程技术中,有些问题最终转化为大型稀疏鞍点问题的求解,如流体力学,最优化,弹性力学等等,因此鞍点问题数值求解方法的研究具有非常重要的理论意义和应用价值,求
学位
设ε,Q,W分别是平面内由正三角形与正六边形,正三角形、正方形与正六边形,正方形、正六边形与正十二边形生成的阿基米德铺砌,其顶点集分别记为E,Q,W,它们中的点分别称为E-点,Q-点,W-点.
令X,Y为Banach空间,ε>0,映射f:X→Y称为ε-等距,如果|||f(x)-f(y)||-||x-y|||≤ε,(V)x,y∈X.本文主要对Banach空间中非满的ε-等距与线性等距之间关系进行了讨论.  首先,在第一章
相比经典的积分方程,含延迟的积分方程更适合描述自然界中带有遗传和记忆的现象.目前,延迟Volterra积分方程已广泛应用于遗传学、人口模型、系统控制等领域,与之相关的理论分
在实验设计中怎样评价设计的好坏是一个热点问题,对于部分因子设计,现有的文献已经提出了多种准则,其中最小低阶混杂准则(Minimum Aberration简称MA)被广泛地应用于具有定性因
本文给出一种特殊的可靠性系统模型,该系统具有三种失效状态,第一种失效状态为开路失效,第二种失效状态为故障失效,第三种失效状态为“报废”失效,即需要更换系统。文中针对系统在不同条件下的三种失效状态的维修模型,以其第一种失效状态的次数M和第二种失效状态的次数N组成的二元函数为策略(M,N)来研究,求解最优的策略(M*,N*).模型一:针对具有三种失效状态单部件可修系统,系统第二种失效维修服从几何过程,