【摘 要】
:
随着科技的进步,人类收集、存储数据能力的提高,超高维数据的分析变得越来越重要.从计算成本、统计准确性和模型可解释性的角度考虑,传统的方法不能直接应用到超高维数据分析
论文部分内容阅读
随着科技的进步,人类收集、存储数据能力的提高,超高维数据的分析变得越来越重要.从计算成本、统计准确性和模型可解释性的角度考虑,传统的方法不能直接应用到超高维数据分析上来.在高维数据分析中,我们通常对数据进行稀疏性假设,即只有一小部分变量对因变量有影响.对于超高维数据分析,我们一般先将原来的协变量个数降到一个温和的程度,然后在此基础上,利用现有的较为成熟的变量选择方法(如LASSO, SCAD, MCP等)进行最后的模型选择和参数估计.本文在Fan和Lv提出的非参数独立筛选法(Nonparametric Independence Screening)的基础上,结合了“数据劈开”(sample splitting)的想法,在超高维部分线性模型的假定当中进行筛选.第二章中,我们介绍了非参数独立筛选法和在“数据劈开”情况下的算法,又进一步提到了一个改进的greedy方法.第三章中我们证明了非参数独立筛选法的确定性筛选性质(sure screening property)和控制错选率的一个性质.最后一章,利用计算机模拟的手段验证了本文提出的方法和几种变体方法的筛选效果,并和其他传统的筛选方法进行对比,最终显示出了非参数独立筛选法卓越的性质和实用价值.
其他文献
本文选取了PIXAR的八部长篇动画电影作为本次动画电影分镜头数据分析与研究的对象。本文将统计每部动画电影分镜头的镜头调度关系、镜头运动方式与镜头的连接转场方式等要素
多囊卵巢是一种常见的妇科内分泌疾病,因该病导致的不孕症占不孕患者的50%,PCOS合并不孕的治疗包括药物治疗,手术和助孕技术三个方面,部分PCOS患者经克罗米芬(CC)治疗后可以获
锂硫电池因其超高的理论比容量(1675 mAh/g)、原材料廉价易得、无毒、对环境友好等特点,受到了研究者的广泛关注。本文的研究主要从正极材料粘结剂方面作为切入点,分别采用水系
通过对我国焦炉机械行业当前的生产状况、产能等进行分析,结合国家在焦化行业的现行产业政策,对焦炉机械行业的发展趋势和市场需求进行预测,指出焦炉机械供应商应该采取的应
子宫脱垂和阴道前后壁膨出是老年妇女的常见病,于绝经后症状逐渐加重,这与年龄增加及雌激素水平降低所致的退行性变有关。此时,经阴道子宫全切和阴道前后壁修补术疗效最佳,因阴式
混沌理论则是在自然应用非线性科学领域范畴探索过程的重中之重。对于超混沌系统而言,它最少会在一个或更多的环面做出放大或缩小的行为,它有着极其繁琐深奥的动态特性,可以
针对传统十八辊轧机板形调控手段有限,对轧制过程中出现的复杂的板形难以进行控制,制约了其应用范围的情况,提出一种对侧支撑摆臂进行分段设计,每段对应增加位移微调装置的改
Etravirlne(曾用代号:R-165335,TMC-125)的化学名为:“晦基-5-溴-2-(4-氰酚胺)嘧啶4氧]-3,5-二甲基苄腈。化学结构式如下:
烟酸缺乏症系饮食内烟酸和色氨酸供给不足或肠道吸收障碍所致的以皮肤黏膜、消化系统和神经系统症状为主的疾病.随着人们生活水平的提高,此病已日渐减少,但在部分农村地区,甚
为防止农村发生较大规模的SARS疫情传播,保护广大农民群众身体健康和生命安全,维护农村经济发展和社会稳定,根据<2003~2004年传染性非典型肺炎防治工作方案>,特制定本指导原则