高维统计学习中平衡估计和自适应投影推断的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:songshaona
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于科学技术的高度发达,高维统计学习在分子生物学、健康科学、经济学、金融和人工智能的各种科学、工程和人文学科领域变得越来越频繁和重要。这里的高维指的是未知参数的维度远大于样本量,统计学习是指用统计方法揭示数据背后隐藏的信息。高维统计习中的三个核心问题是变量选择,估计和推断。近些年来,由于研究人员和应用者的不懈努力,高维统计学习方法层出不穷且逐渐成熟。然而,在高维情形下,下述两个问题依旧迫切需要被解决。一方面,现有文献通常认为观测到的数据是干净的,即不受测量误差的影响。事实上,测量误差普遍存在于高维数据中,如传感器网络数据,高通量测序数据和基因表达数据等。错误地使用干净数据下的处理方法往往会得出错误的结论。另一方面,尽管当前的纠偏方法极大地推动了高维统计推断的发展,但通过纠偏估计量进行的统计推断通常需要较大的样本量以保证渐近正态性,并且只可以处理相对少量高于可识别水平的非零信号。因此,纠偏方法在某些实际应用中可能表现不佳。本文将基于上述两个问题展开。针对测量误差模型中的变量选择和估计问题,本文提出了一种平衡估计量,这里的平衡指的是预测,变量选择和计算效率之间的折衷。该方法结合了最优半正定投影和组合L1和凹惩罚的思想,并且可以通过路径跟踪坐标优化算法有效地求解。理论上,我们建立了与干净数据下Lasso方法等价的oracle预测和估计误差界,以及错误符号率的渐近消失的界(渐近消失的结果表明该方法有效地控制了过拟合问题)。由于该方法是非凸优化问题,本文也从理论上确保了其可计算解的优良性质。具体来说,稀疏的可计算解在温和条件下享有和全局最优解相同的渐近理论结果。此外,大量的仿真模拟表明,变量选择的改善将反过来提高在测量误差下的预测和估计性能。为了减轻纠偏方法中的约束(关于样本量和高于可识别水平的非零信号个数的约束)并提高推断效率,我们基于自适应投影估计量开发了一种新的推断方法。该投影估计量是由自适应正交向量构造而来,这里的自适应正交向量与可识别系数对应的协变量向量正交,并且同时与其余不可识别系数对应的协变量向量“松弛”(弱)正交(这里的弱正交是通过Lasso投影实现的)。因此,该方法完全地消除了可识别信号的影响,并将不可识别信号的影响控制在可忽略的水平,从而对样本量和高于可识别水平非零系数的数量产生了更弱的约束。我们还提供了该方法的一种稳定版本,并将其推广到一般的广义线性模型当中。理论上,我们严格地证明了该自适应投影估计量的渐近正态性。同时,在更弱的约束下,我们证明了所提方法和传统纠偏方法的渐近等价性(如置信区间长度)。此外,大量的模拟进一步佐证了所提方法的优越性能。最后,我们利用前述方法分析了糖尿病数据和股票数据。糖尿病数据的分析结果表明,体重指数与糖尿病进展的正相关性最强。股票数据的分析结果表明,GAPTQ、GCO、HAR和OMS这四家公司在各自的领域都具有很强的影响力。
其他文献
DNA甲基化修饰是表观遗传的重要调控方式,其复杂而精准地调控基因表达,在肿瘤的发生与发展过程中发挥着重要的作用。长链非编码RNA(long noncoding RNAs,lncRNAs)在多个水平
基于二阶循环统计量的循环平稳分析方法,因其具有良好的解调和高斯噪声降噪性能,已广泛应用于信号处理及旋转机械故障诊断领域。但是,在非高斯噪声背景下,基于二阶循环统计量的循环平稳信号处理方法,其降噪能力严重衰退,难以准确提取故障信号的特征,尤其在故障初期,微弱的故障信号容易被强度较大的噪声淹没,使得机械零件的故障特征更加难以提取。针对基于二阶循环统计量的循环平稳分析方法在非高斯噪声背景下,其噪声抑制和
K325合金是一种固溶强化型镍基铸造高温合金,因其具有高的强度、优异的加工性能、良好的抗氧化腐蚀性能和铸造性能,成为700℃超超临界机组燃煤机组中箱体和阀体等大型铸件的
配电网线损率是对电网企业考核的一种综合性配电网评价指标,线损率反映出配电线路的规划水平,也能反映电网公司经营管理水平。因此研究配电网线损率和其影响因素之间的定量关系,通过优化供电线路设计、改善电网公司的经营策略降低线路损耗,具有十分重要的实际意义。首先,本文对配电网台区线损数据进行处理、探索性分析和特征工程。通过分析处理后数据的线性关系和相关性关系,定性地分析影响因素和配电网线损率之间的关系,并判
环氧树脂因优异的机械性能、耐腐蚀性能等被广泛应用于电气航天等领域,但易燃特性极大阻碍其拓展应用。膨胀阻燃剂是一种可用于环氧树脂的绿色阻燃剂,具备低烟、无毒等优势,但其缺陷在于阻燃效率低,添加量大,导致环氧树脂的机械性能弱化。学者们通常运用协同阻燃剂改善膨胀阻燃剂的缺陷。近年来纳米二维材料因其比表面积大、高热稳定性等特性,可作为优良协同阻燃剂而逐渐被引入阻燃领域。仅需微量纳米二维材料与膨胀阻燃剂协同
在能源紧缺和环境污染的双重压力下,电动汽车已成为新能源汽车的主要发展方向。电动汽车规模的不断扩大,给电网的安全稳定运行带来了新的挑战和机遇。电动汽车接入电网,既可
航空制造业在当代社会发展迅速,随之而来对航空结构件的精度也提出了更高的要求。航空整体结构件在加工后发生弯曲变形、扭转变形等问题上也越加突出。由于工件在加工后产生变形而无法达到使用的要求,导致生产效率降低和成本提高,给航空制造业造成非常大的困扰和损失。影响航空整体结构件加工变形的因素众多(例如:工件材料属性、初始残余应力、加工残余应力、温度变化、切削力、切削热、工艺参数等)。目前,针对航空整体结构件
为了缓解交通压力,落实国务院关于建立以轨道交通为主的城市公共交通体系的指导意见,各城市进入了轨道交通建设快速发展期。但某些城市在建设过程中,忽略了轨道交通与城市的互动关系,存在站点周边土地利用率低、功能不合理等诸多问题。本文通过研究国内外TOD、综合开发等相关理论与实践案例,从多个方面为轨道站区土地综合开发提出相应规划策略,并结合佛山市顺德区正施工中的首期轨道站区进行实证分析,旨在为顺德区轨道站区
构成传统的机械性系统的最理想元器件有质量块、阻尼器和弹簧三部分。由这三部分组成的阻尼系统是在算法中最为经典、常见的机械系统,该系统可以应用于生活中的各个领域。例如在太空中的对接过程中,其设备的稳定性以及抗冲撞能力的大小都会对交接的结果产生直接的影响。综上所述,对弹簧阻尼系统的研究是很有必要的。本课题将利用自抗扰控制与PID控制算法实现对二级质量-弹簧-阻尼系统的稳定控制,并将实验平台应用到自控教学
微藻资源的开发利用在许多行业内都备受关注,在众多领域都有着重点的研究和应用。但影响微藻生长的因素繁多,人工培养技术等问题限制了微藻的产业化发展,微藻产业的规模和产量远远满足不了市场需求。为了提高人工培养微藻的产量和效率,国内外研究人员从多种角度研究微藻的培养条件,并设计了不同功能的光生物反应器,针对性地解决微藻培养问题。微藻的生物活性注定了其生长过程的复杂多变,在适宜的生长环境下还需要及时地补充营