论文部分内容阅读
变量选择在现代统计学习和科学发现中扮演着很重要的角色。在基因研究中,人们普遍认为:只有少部分分子与生物学结果有关。例如在疾病分类研究中,往往只有数十个基因是真正影响某种疾病发生的。选择出这数十个基因不仅能够帮助统计学家构建更好、更可信的分类准则,同时也能够帮助生物学家更好地理解分子机能。另一方面,半参数回归模型既能保留非参数回归模型较广适应性的优点,又能避免“维数祸根”现象,因此近年来得到了广泛地研究、发展与应用。
本论文主要研究了几类半参数模型的统计推断和变量选择问题,主要内容如下:
(1)研究了部分线性乘积模型的估计及变量选择问题。Chen et al.(2010)指出在很多实际应用中,人们更关心的是相对误差,而不是误差本身。在本部分我们推广了最小绝对值相对误差(least absolute relative error,LARE)准则,利用局部光滑技术研究了更一般的部分线性乘积模型的估计。我们证明了估计的相合性和渐近正态性,并利用随机加权方法得到了参数估计的渐近协方差估计。在此基础上,我们提出了一个简单有效的变量选择方法,对线性部分的协变量进行选择,并证明了oracle性质。最后我们通过数值模拟研究了所提方法的有限样本表现。
(2)研究了单指标变系数模型的有效性问题,给出了有效得分函数和有效估计。证明了感兴趣参数估计的√n相合性和渐近正态性,证明了估计达到半参数有效界。另外,我们提出了两阶段变量选择方法来对变量进行选择以及区分对应系数属性:不仅能够找出重要的非参数型变量及单指标中重要的参数型变量,而且能同时区分开变系数型变量和常数型变量。我们证明了变量选择的相合性,并且得到估计的相合性和渐近正态性。我们通过数值模拟以及实际例子研究了所提方法有限样本表现。
(3)研究了广义回归模型的变量选择问题。我们提出了广义回归模型的一个惩罚估计方法。这个方法结合秩相关方法与Adaptive lasso变量选择技术。证明了所得到的估计不仅是n1/2相合渐近正态的,而且在一定条件下能够达到oracle性质。考虑到本章提出的方法是直接基于非连续的目标函数来研究,我们对Wang(2007)提出的IMO算法进行修正,以适应新的惩罚目标函数求解需要。我们通过数值模拟研究了所提方法有限样本表现。