若干统计模型的亚组分析和特征筛选

来源 :山东大学 | 被引量 : 0次 | 上传用户:llljjjxxx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近很多研究者们关注识别不同的亚组。其中精准医疗是亚组分析中很常见的应用,精准医疗追求的是对不同亚组的患者给予不同的治疗。由于不同的患者在基因,环境,年龄和体重等方面会有所不同,所以对不同亚组的患者给予针对性的治疗能达到更好的医疗效果(Ma and Huang,2017)。亚组分析的另一个广泛应用就是精准营销。针对消费者不同的消费行为和喜好实施不同的营销策略。精准营销可以为消费者提供个性化的服务,识别不同的亚组有助于企业提高其利润(You et al,2015)。因此,正确识别不同的亚组来提高效益是一个非常有意义的事情。在本文第二章中我们研究了异质可加部分线性模型的亚组识别问题。异质可加部分线性模型在实际应用中更加灵活和广泛,该模型结合了参数和非参数成分,对每个变量既有简单直接的解释性同时避免了维数灾难问题。而且我们提出的模型结合了线性,非线性和异质性,更加具有一般性,有效性和适应性。作为可加部分线性模型的推广模型,异质可加部分线性模型包括同质的线性成分和与对象相关的可加成分,但是我们事先并不知道与对象相关的可加成分的组构成信息。这样的模型对于解决一些特殊的问题比如精准医疗和精准营销更加灵活和有效。异质可加部分线性模型具有如下的形式:yi=xiTβ+gi(zi)+εi,i=1,…,n,其中β=(β1,…,βq)T是未知的系数向量,异质可加函数gi(zi)=gi0+∑j=1p gij(zij),其中gi0∈R是异质的截距项,gij∈R(i,j ≥ 1)是未知的光滑函数,为了可识别目的我们假设E[gij(zij)]=0(i,j≥1)。我们的目标是识别gij,j=0,1,…,p的亚组,在每个亚组中gij有相同的函数形式,然后我们再进一步地在每个亚组中估计可加函数gi和参数β。我们用多项式样条来近似异质的可加成分,在光滑性假设下(Stone,1985),B样条基函数B(zi)=(1,b(zi1)T,…,b(ziT)Tp)的线性组合可以有效地近似未知的非参数函数gi(·)。上述模型可以被近似的表示成如下形式:yi==xiTβ+B(zi)Tγi+εi,i=1,…,n,其中γi=(γi0,γi1T,…,γiTp)T∈RNnp+1是与观察对象相关的样条系数。亚组的数目K和组的构成事先并不知道,如何识别亚组是个具有挑战性的问题。对于线性模型,Ma and Huang(2017)用成对融合凹惩罚方法来识别斜率项的亚组,但是当样本量n和协变量的维数p比较大时,这种方法是复杂和不稳定的,因为他们的实现需要不断的迭代存储和计算所有np维参数,其记忆和计算成本都是相当高的。我们把斜率项的优化问题转化为截距项的优化问题。新的聚类方法能自动地识别亚组,该方法避免了像回归聚类方法那样在每步迭代中都要求解系数向量。因此,即使在大样本下,该方法也是快速的并且稳定的。异质的可加成分经过分类后,我们再在每个亚组中进一步得到同质的参数部分和与对象相关的可加成分的相合估计,而且,我们得到了参数估计的█相合性和渐进正态性。在文中第三章中,我们研究通过融合性惩罚来捕捉重复测量数据的异质性,对于纵向或者聚类数据在微生物研究中很常见。例如,纵向数据研究中生物标记是随着时间测量的。同一个体的生物标记的重复测量一般是相关的。在聚类的研究中,在同一类中个体(如双胞胎,家庭,或者团体)的健康结果因为有共享的基因和环境因素更为相似。在这章中为了简化说明,我们将用术语“重复测量”来描述同一类中对多个单位的测量(在空间上的重复,例如,同一个人对左眼和右眼的测量)或者相同标记物在不同时间上的测量(时间上的重复,例如,同一个人血压的纵向测量)。我们需要解释对同一个体或者同一类的重复测量所产生的相关性,从而得到更加准确和有效的估计。我们提出如下的线性模型:yij=ai+xijTβ+εij.i=1,...,m,j=1,…ni.其中ai’s是未知的特定个体的截距项;β=(β1…,βp)T是未知的协变量系数;εij~N(0,σ2)是独立于xij和ai的随机误差。如何捕捉重复测量数据的异质性是关键性问题,重复测量数据的异质性一般用固定效应模型或者随机效应模型来拟合。在固定效应模型中,异质性的自由度的数目等于聚类/观察对象的数量减1,这样会导致有效性减小。在随机效应模型中,不同聚类/观察对象的异质性被描述为,随机截距的方差,但是这样会导致过度简化而产生偏差,产生压缩的估计。所以为了平衡估计的有效性和准确性,我们提出了一个介于固定效应模型和随机效应模型之间的新方法-融合效应模型。在我们的新模型中,我们假设每个研究对象的异质性属于不同的亚组。通过惩罚融合效应(两个特定个体间效应的异质性),我们在不知道个体的组成分关系的前提下自动对特定个体效应进行分组。█因此我们给这种方法命名为“融合效应”模型。我们的模型是参考Ma and Huang的方法,采用他们的方法来处理重复测量数据。计算上,我们提出交替方向乘子法(ADMM)来实现估计程序,这种方法常被用于解决凸优化问题。我们用凹惩罚处理参数间成对差异。这些惩罚包括平滑削边绝对偏离惩罚(SCAD)和最小最大凹惩罚(MCP),这两个惩罚满足相合性的性质。在本文第四章中,我们研究高维多元响应变量交互模型的变量选择。高维数据的交互项筛选仍然是一项具有挑战性的任务,尤其是当变量是超高维并且强相关的情况。对于超高维数据多元响应变量交互模型,当预测变量之间有很高的相关性时,我们提出投影到条件集上来筛选主效应和交互变量。我们把已经选出的主效应和交互变量作为条件信息,把协变量和响应变量投影到条件集上来选择活跃变量。通过投影协变量,我们提出的方法可以明显地减少已经选出的主效应和交互变量对其他变量产生的混淆效应,从而解决漏掉隐藏的重要变量和错选不重要变量的问题。值得指出的是条件集的大小不能太大,因为它会破坏预测变量和响应变量之间的关系并且导致计算麻烦。为了这个目的,我们给出了条件集的最大势的阈值来决定哪些变量之间是最相关的。基于interaction pursuit via distance correlation(IPDC,Kong et al.,2016)方法,对于高维多元响应变量交互模型我们通过投影用偏距离相关系数来选择活跃的交互变量。和直接识别交互项相比,选择活跃的交互变量计算更加有效,因为它从计算O(p2)次降低到计算O(p)次,从而减少了计算成本。而且,因为保留了IPDC方法的优点,新的方法不要求弱遗传性假设和强遗传性假设。经过筛选步骤之后,我们用选择出来的交互变量构造成对的交互项,用正则化的方法来进一步识别重要的交互项和主效应。从理论性质和模拟研究来看,我们的筛选方法在筛选步骤中表现很好并且具有sure screening性质,也就是重要的交互变量和主效应以接近1的概率被选择出来。
其他文献
教育是知识创新和技术创新的基础 ,良好的教育将为知识经济社会提供可靠的人力资源和智力资源 ;21世纪中国档案事业的发展在很大程度上取决于档案教育 ,取决于档案专业人才的
产品保障服务是耐用产品售后服务的重要环节,该服务不仅为消费者提供了售后保障,同时也增强了企业竞争地位。一般地,产品保障服务包含基础保障和延展保障两种基本类型,企业必须对这两种保障进行最优配置。这其中,一个重要的、具有挑战的问题是:当企业在基础保障之上还提供可供选择的延展保障时,延展保障对前者究竟有着怎样的影响?当企业实施不同的定价策略(批发价格策略、两部定价策略)时,这些定价策略对产品保障又会产生
目的:卵巢恶性生殖细胞肿瘤(Ovarian malignant germ cell tumors,MOGCT)常好发于青少年女性,随着近些年来手术方式的改进提高和联合化疗的应用,MOGCT患者的预后有了很大的改
<正>据索比太阳能光伏网2014年12月9日报道:近日,上海市燃气公司金山无人值守调压站内光伏离网储能系统顺利竣工,并通过验收。该项目规模3kW,采用光伏发电优先、市电旁路自动
随着生产需求的增加,我国甘草野生资源迅速减少,现以宁夏、内蒙古、甘肃、新疆等西北地区大面积人工种植为主,而市场上的栽培甘草质量参差不齐。除了大量的临床需求,甘草中的
主要以城市文脉和建筑类型学为研究对象,在研究建筑类型学理论中的类似性城市理论、城市重建理论以及城市“层”的概念的基础上,提出现阶段在我国城市建设中要学会利用建筑类
目的:近年来,越来越多口腔颌面部临床表现为感觉障碍或运动障碍的患者来口腔科就诊,患者在尚未确诊之前,仅仅因为其在口腔颌面部有部分临床表现,而首选口腔科就诊。其中腔隙
"让人民群众在每一个司法案件中都感受到公平正义",这是习近平在2013年开春之际的政治局会议上提出的要求。法治中国的建设离不开法制的健全,离不开媒体的参与。媒体与司法是
关于旅游企业文化研究层出不穷,绝大部分是停留于经验式的描述,而缺乏对企业文化的定量调查和科学的轮廓勾勒。借用基于CVF理论的组织文化评估工具(OCAI)对五星级饭店企业文
随着煤矿、煤层气勘探开发的进一步深入,煤矿区钻探过程中钻遇地层愈加复杂,在钻进至破碎、裂缝发育地层时,漏失问题尤其是裂缝性漏失问题突出。在裂缝内建立稳定封堵隔墙,阻