【摘 要】
:
随着大数据,精准医疗、个性化营销的快速发展,数据的异质性及变量的稀疏性是建立模型分析数据需要考虑的两个重要因素,探究分析这类型数据的变量选择、亚组分析、参数估计方法是十分重要的。首先针对纵向、缺失异质数据,本文研究了带有缺失、纵向数据的异质性回归模型。在频率学框架下,通过多向分离惩罚函数与逆概率加权相结合,采用ADMM算法解决模型的参数估计、变量选择及亚组识别问题,特别地,本文所提出的方法实现了个
论文部分内容阅读
随着大数据,精准医疗、个性化营销的快速发展,数据的异质性及变量的稀疏性是建立模型分析数据需要考虑的两个重要因素,探究分析这类型数据的变量选择、亚组分析、参数估计方法是十分重要的。首先针对纵向、缺失异质数据,本文研究了带有缺失、纵向数据的异质性回归模型。在频率学框架下,通过多向分离惩罚函数与逆概率加权相结合,采用ADMM算法解决模型的参数估计、变量选择及亚组识别问题,特别地,本文所提出的方法实现了个性化变量选择并且给出了相关估计量的理论性质;在贝叶斯框架下,本文首先提出一个贝叶斯潜在亚组识别模型,可以识别有异质效应的亚组,然后通过设置异质部分参数的Spike-and-Slab先验,并推导模型参数的后验分布,采用Gibbs抽样实现模型的参数估计、个性化变量选择和亚组识别问题。将两种方法分别运用到ACTG数据和ADNI数据中,分析表明两种方法能够实现个性化估计并得到较好的估计效果。最后,本文研究带有缺失数据的超高维异质分类数据的变量筛选问题,通过将借用缺失指标信息方法与超高维异质分类数据的类别自适应无模型变量筛选程序结合,解决响应变量带有随机缺失时异质分类数据的变量筛选问题,将该方法运用到TCGA的肿瘤微生物数据上得到较好的癌症分类预测效果。综上所述,本文通过研究建立了一套较完善的用于分析纵向、缺失异质型数据的变量选择、亚组分析、参数估计的理论和方法体系,进而将该分析方法应用到实际应用中。
其他文献
共价有机框架材料(covalent organic framework materials,COFs),是一种新兴的多孔晶体聚合物,由轻元素(例如B,C,Si,N和O)通过强共价键(例如B-O,C-N,C=N和C=C-N)连接有机单元而构成,采用动态可逆共价化学构建并能够将有机单元精确地整合成周期性柱状π阵列和有序孔道。与传统材料相比,COFs材料具有一些独特的性质,如大表面积、可预先设计的孔几何
随着人们生活质量的提高,对于饮食健康(尤其土特产方面)的关注度也不断提升。我国地大物博,各个地区都有许多具有不同特色的土特产。然而,当前人们通过搜索引擎搜索某个地区的土特产信息时得到的重复内容较多,且往往查询到的只有该地区较为有名的一小部分。很多品质好、功效高的土特产由于宣传力度不够或一些其他原因却鲜为人知,从而导致严重的滞销。本文使用自然语言处理和知识图谱技术构建关于土特产功效与产地等信息的土特
植物种群的遗传分化及分布格局常受地质事件和气候变化等历史因素的影响。作为北半球温带植物区系中物种多样性最高的区域,中国-日本植物区系(尤其是中国西南山地生物多样性热点地区)植物的种群分化和分布格局普遍受到青藏高原隆起、第四纪冰期气候震荡或高度异质的地形及生境的影响,由此导致多种谱系地理间断模式。绣球蔷薇(Rosa glomerata Rehder&E.H.Wilson)隶属于蔷薇科(Rosacea
本文以教育科学出版社版和江苏教育出版社版两版小学科学教材为语料,系统、深入地分析操作语体的语言机制,顺应了篇章研究的发展趋势,将篇章研究的具体问题落实到具体语体上,并希冀为学科教育和语体研究等相关领域理论提供实证支持。本文理论上的推进在于:1.给出操作语体篇章延续性的计算方法;2.首次提出了科学教材操作语体篇章中形式化的模版,发现操作语体篇章有必有构件和可选构件,并对可选构件进行细分类,区分了可选
物种丰富度的空间格局并不是沿纬度和海拔梯度均匀分布的,生物多样性的地理梯度一直令生物地理学家和生态学家着迷。山地拥有世界上约87%的物种,却仅占陆地面积(不包括南极洲)的25%左右,并且大量物种仅限于(特有)山区分布(Rahbek et al.,2019),全球大部分山地区域被视为全球生物多样性热点区域。云南地势北高南低,山地面积占全省94%,本研究以云南北部的高黎贡山北段、梅里雪山、玉龙雪山、轿
物种界限(Species Boundary)限制了自然界中不同物种间的基因流和杂交渐渗,维持物种独立性。植物类群中,普遍存在的进化现象和进化方式——杂交(Hybridization)和基因渐渗(Genetic Introgression),它们对物种的适应性进化、遗传变异、物种分化和生物多样性形成有重要意义。物种间杂交可能会导致亲本物种发生相互融合,或产生新物种,或亲本物种维持相互稳定;然而,近缘
《爱的痛苦》是华裔美国作家雷祖威(David Wong Louie)于1991年出版的第一部短篇小说集,共收录了 11篇故事,有的故事涉及到新一代华裔群体,还有一些涉及的则是族裔身份模糊的美国人。许多人认为,这部小说与之前的美国华裔作家作品相比弱化了族裔性,但笔者仍发现小说体现出了华裔身份的特殊性。与此同时,作品展开了对于其他主题的叙述,如对美国人的生存状态的关注,这也是此前的华裔美国文学作品所缺
UiO-66-NH2和MIL-101-NH2(Fe)已广泛用于去除水体中的磷酸盐和As(Ⅴ),但UiO-66-NH2选择性差,去除效率低,而MIL-101-NH2(Fe)稳定性较差,选择性和去除效率也不能满足实际的需求。为了增加此类MOFs材料的吸附性能,增强其实用性,本文通过了稀土元素钕(Nd)掺杂到UiO-66-NH2和MIL-101-NH2(Fe)中,制备了Nd-UiO-66-NH2和Nd-
大数据时代中的网络平台产生了样本量巨大反映情感信息的短文本,获取和理解短文本中所蕴涵的信息是非常有意义的。但由于文本数据的结构特征和短文本包含词量较低,使得网络短文本聚类面临以下主要问题:1.基于单词向量空间模型获取的词向量维度等于文本数据词表的长度,使得词向量维度过高而带来的短文本的高维问题;2.网络短文本中包含的关键词的频数较小,关键词的词频和关键词之间的共现频率等语义信息不能得到充分挖掘导致
传统聚氨酯材料的发展可以追溯到20世纪40年代,在过去的几十年中,对聚氨酯的研究已经比较成熟,聚氨酯材料凭借优异的机械性能和耐磨性等优点获得了广泛的应用。但是因为其耐水性和耐候性不佳,从而限制了其在某些领域的应用。有机聚硅氧烷独特的结构使其拥有优异的耐高低温、耐候性和透气性等性能。本论文研究将聚硅氧烷的优势性能和聚氨酯优异的机械性能结合制备二者兼备的聚硅氧烷-聚氨酯弹性体和聚硅氧烷-聚氨酯泡沫,并