论文部分内容阅读
在不同时刻对于不同个体或者观测对象分别进行若干次重复观测,即得到了不同时刻对于不同个体的若干观测值,这类数据我们称其为纵向数据。平衡纵向数据是纵向数据的一类,在相同时刻对不同观测对象进行观测得到的数据,能反映不同个体随时间的变化情况,在医学、社会科学等研究中有广泛的应用。对此类数据进行分析研究时,自变量的选择是首要解决的问题。Lasso及其相关方法,在对变量压缩提取方面有较好的效果。 本文主要应用自适应La sso方法及其后续改进的自适应弹性网方法的思想,通过对目标函数添加约束来压缩回归系数,将影响较小的自变量的回归系数压缩为零,解决平衡纵向数据模型的变量选择问题。主要工作如下: 第一章深入探讨了平衡纵向数据的实际应用价值,分析了研究背景及平衡纵向数据变量选择的研究意义。 第二章介绍了在变量选择方面Las so相关方法的应用及发展。首先介绍了Lasso相关方法的思想,同时介绍了最小角回归算法,该算法能有效解决Lasso及相关方法中带有绝对值罚函数的计算问题。最后还介绍了具有组效应性质的弹性网算法、组Lasso方法以及具有Oracle性质的SCAD方法、自适应Lasso方法、自适应弹性网方法等。 第三章和第四章分别将自适应 Lasso方法、自适应弹性网方法引入平衡纵向数据模型的变量选择中,提出平衡纵向数据自适应 Lasso变量选择算法及平衡纵向数据自适应弹性网算法。同时研究分析了两种方法所具有的Oracle性质和组效应性质,并通过数值实验分别对两种方法进行了验证,分析了数值实验结果。 第五章对影响城市竞争力的主要因素进行了分析研究。选取了2011-2015年五年间二十座城市的二十八项指标的统计数据,通过对原始数据进行加工处理,利用第三章、第四章给出的算法进行分析,选出对城市竞争力影响较大的因素,通过实例分析验证了算法的有效性,并分析了结果。 最后在此基础上对文章进行了总结,并对后续研究方向提出了展望。