论文部分内容阅读
最近很多研究者们关注识别不同的亚组。其中精准医疗是亚组分析中很常见的应用,精准医疗追求的是对不同亚组的患者给予不同的治疗。由于不同的患者在基因,环境,年龄和体重等方面会有所不同,所以对不同亚组的患者给予针对性的治疗能达到更好的医疗效果(Ma and Huang,2017)。亚组分析的另一个广泛应用就是精准营销。针对消费者不同的消费行为和喜好实施不同的营销策略。精准营销可以为消费者提供个性化的服务,识别不同的亚组有助于企业提高其利润(You et al,2015)。因此,正确识别不同的亚组来提高效益是一个非常有意义的事情。在本文第二章中我们研究了异质可加部分线性模型的亚组识别问题。异质可加部分线性模型在实际应用中更加灵活和广泛,该模型结合了参数和非参数成分,对每个变量既有简单直接的解释性同时避免了维数灾难问题。而且我们提出的模型结合了线性,非线性和异质性,更加具有一般性,有效性和适应性。作为可加部分线性模型的推广模型,异质可加部分线性模型包括同质的线性成分和与对象相关的可加成分,但是我们事先并不知道与对象相关的可加成分的组构成信息。这样的模型对于解决一些特殊的问题比如精准医疗和精准营销更加灵活和有效。异质可加部分线性模型具有如下的形式:yi=xiTβ+gi(zi)+εi,i=1,…,n,其中β=(β1,…,βq)T是未知的系数向量,异质可加函数gi(zi)=gi0+∑j=1p gij(zij),其中gi0∈R是异质的截距项,gij∈R(i,j ≥ 1)是未知的光滑函数,为了可识别目的我们假设E[gij(zij)]=0(i,j≥1)。我们的目标是识别gij,j=0,1,…,p的亚组,在每个亚组中gij有相同的函数形式,然后我们再进一步地在每个亚组中估计可加函数gi和参数β。我们用多项式样条来近似异质的可加成分,在光滑性假设下(Stone,1985),B样条基函数B(zi)=(1,b(zi1)T,…,b(ziT)Tp)的线性组合可以有效地近似未知的非参数函数gi(·)。上述模型可以被近似的表示成如下形式:yi==xiTβ+B(zi)Tγi+εi,i=1,…,n,其中γi=(γi0,γi1T,…,γiTp)T∈RNnp+1是与观察对象相关的样条系数。亚组的数目K和组的构成事先并不知道,如何识别亚组是个具有挑战性的问题。对于线性模型,Ma and Huang(2017)用成对融合凹惩罚方法来识别斜率项的亚组,但是当样本量n和协变量的维数p比较大时,这种方法是复杂和不稳定的,因为他们的实现需要不断的迭代存储和计算所有np维参数,其记忆和计算成本都是相当高的。我们把斜率项的优化问题转化为截距项的优化问题。新的聚类方法能自动地识别亚组,该方法避免了像回归聚类方法那样在每步迭代中都要求解系数向量。因此,即使在大样本下,该方法也是快速的并且稳定的。异质的可加成分经过分类后,我们再在每个亚组中进一步得到同质的参数部分和与对象相关的可加成分的相合估计,而且,我们得到了参数估计的█相合性和渐进正态性。在文中第三章中,我们研究通过融合性惩罚来捕捉重复测量数据的异质性,对于纵向或者聚类数据在微生物研究中很常见。例如,纵向数据研究中生物标记是随着时间测量的。同一个体的生物标记的重复测量一般是相关的。在聚类的研究中,在同一类中个体(如双胞胎,家庭,或者团体)的健康结果因为有共享的基因和环境因素更为相似。在这章中为了简化说明,我们将用术语“重复测量”来描述同一类中对多个单位的测量(在空间上的重复,例如,同一个人对左眼和右眼的测量)或者相同标记物在不同时间上的测量(时间上的重复,例如,同一个人血压的纵向测量)。我们需要解释对同一个体或者同一类的重复测量所产生的相关性,从而得到更加准确和有效的估计。我们提出如下的线性模型:yij=ai+xijTβ+εij.i=1,...,m,j=1,…ni.其中ai’s是未知的特定个体的截距项;β=(β1…,βp)T是未知的协变量系数;εij~N(0,σ2)是独立于xij和ai的随机误差。如何捕捉重复测量数据的异质性是关键性问题,重复测量数据的异质性一般用固定效应模型或者随机效应模型来拟合。在固定效应模型中,异质性的自由度的数目等于聚类/观察对象的数量减1,这样会导致有效性减小。在随机效应模型中,不同聚类/观察对象的异质性被描述为,随机截距的方差,但是这样会导致过度简化而产生偏差,产生压缩的估计。所以为了平衡估计的有效性和准确性,我们提出了一个介于固定效应模型和随机效应模型之间的新方法-融合效应模型。在我们的新模型中,我们假设每个研究对象的异质性属于不同的亚组。通过惩罚融合效应(两个特定个体间效应的异质性),我们在不知道个体的组成分关系的前提下自动对特定个体效应进行分组。█因此我们给这种方法命名为“融合效应”模型。我们的模型是参考Ma and Huang的方法,采用他们的方法来处理重复测量数据。计算上,我们提出交替方向乘子法(ADMM)来实现估计程序,这种方法常被用于解决凸优化问题。我们用凹惩罚处理参数间成对差异。这些惩罚包括平滑削边绝对偏离惩罚(SCAD)和最小最大凹惩罚(MCP),这两个惩罚满足相合性的性质。在本文第四章中,我们研究高维多元响应变量交互模型的变量选择。高维数据的交互项筛选仍然是一项具有挑战性的任务,尤其是当变量是超高维并且强相关的情况。对于超高维数据多元响应变量交互模型,当预测变量之间有很高的相关性时,我们提出投影到条件集上来筛选主效应和交互变量。我们把已经选出的主效应和交互变量作为条件信息,把协变量和响应变量投影到条件集上来选择活跃变量。通过投影协变量,我们提出的方法可以明显地减少已经选出的主效应和交互变量对其他变量产生的混淆效应,从而解决漏掉隐藏的重要变量和错选不重要变量的问题。值得指出的是条件集的大小不能太大,因为它会破坏预测变量和响应变量之间的关系并且导致计算麻烦。为了这个目的,我们给出了条件集的最大势的阈值来决定哪些变量之间是最相关的。基于interaction pursuit via distance correlation(IPDC,Kong et al.,2016)方法,对于高维多元响应变量交互模型我们通过投影用偏距离相关系数来选择活跃的交互变量。和直接识别交互项相比,选择活跃的交互变量计算更加有效,因为它从计算O(p2)次降低到计算O(p)次,从而减少了计算成本。而且,因为保留了IPDC方法的优点,新的方法不要求弱遗传性假设和强遗传性假设。经过筛选步骤之后,我们用选择出来的交互变量构造成对的交互项,用正则化的方法来进一步识别重要的交互项和主效应。从理论性质和模拟研究来看,我们的筛选方法在筛选步骤中表现很好并且具有sure screening性质,也就是重要的交互变量和主效应以接近1的概率被选择出来。