高维情形下图模型和多变点检测中的若干统计推断方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:midou2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘和存储技术的进步,越来越多的数据能够被获取。一方面,数据规模的激增使得研究变量的个数快速增长,各变量之间的关系也愈发复杂,形成了错综复杂的网络关系。通过对图模型结构的学习的来揭示众多变量之间所隐含的底层网络结构可以为研究者们提供更多有用的信息,在很多实际应用中具有重要的现实意义。另一方面,面对大规模的数据,假设所有的数据服从同一分布,或者具有相同的结构并不合理。实际上,对于一组大规模的有序观测数据,数据结构往往会在某些未知的点处发生突变,这些点被称作为变点。这意味着变点前后的观测数据并不遵循同一模型。在此情况下,准确找到数据结构发生改变的位置,即变点检测,对于数据结果分析的准确性是至关重要的。因此,本文基于以上两个方面展开了研究。针对高维图结构恢复,本文首先提出了一种可延展的高维高斯图模型推断方法。该方法具有严格的理论保证,并且我们通过数值模拟验证了该方法是切实可行的。和现有方法相比,我们的方法具有更高的计算效率,能够处理更高维度的高斯图。其次,为了保证图模型恢复过程中所识别出的边大多是正确的,我们提出了高维高斯图模型knockoff筛选程序来实现有错误率(FDR)控制保证的图结构恢复。该方法对于每个节点局部的构造控制变量和统计量,然后求解一个全局优化问题来确定每个节点的阈值。通过比较每个节点的特征统计量和其阈值的大小来估计该节点的邻域,从而得到图估计。我们证明了该方法对于高斯图恢复能够实现渐近的错误率(FDR)控制。通过大量数值模拟表明该方法的确是有效的,并且和现有的方法相比它能够享有更高的功效。对于多变点检测问题,本文针对线性回归模型提出了一种基于knockoff筛选程序的两阶段多变点检测方法。我们方法的第一阶段是将数据切割成多段,将变点检测问题转化为变量选择问题。不同于现有的两阶段方法,我们使用了控制变量的思想来实现有错误率控制保证的段的选择。基于所挑出的段,通过细化阶段找出变点的具体位置,从而完成了多变点的检测过程。和现有的两阶段方法相比,我们允许变量个数以及变点个数随着样本量发散,这使得我们的方法具有更广泛的应用价值,并且我们证明了我们方法对于段的选择可以实现渐近的错误率(FDR)控制,这为变点识别的准确性从区间意义上提供了一个理论保障。大量的数值模拟证实了我们方法的优越性能。
其他文献
在凝聚态物理中,由电荷、自旋、轨道以及晶格自由度对称性破缺导致的各种电子有序态,如电荷或自旋密度波,轨道或价键有序以及电子向列有序等,被发现广泛存在于各种强关联材料以及其它一些复杂材料体系当中。大量的研究表明,这些电子有序态与多种宏观物理现象,如巨磁电阻效应,莫特金属-绝缘体转变以及高温超导电性等有着密切的联系。尤其是这些电子态与超导电性之间的共存或竞争关系,使得对这些电子有序态的物理机理研究,不
学位
量子色动力学(QCD)是描述夸克和胶子之间强相互作用的规范量子场理论。根据格点量子色动力学计算,在高温或高重子化学势的条件下会发生从强子态到夸克胶子等离子体(Quark-Gluon Plasma,QGP)的相变。在夸克胶子等离子体中夸克和胶子解除色禁闭,可以在更大的空间尺度达到渐近自由的状态。对夸克胶子等离子体性质的研究是高能核物理领域的重要课题。位于布鲁克海文国家实验室(BNL)的相对论重离子对
学位
聚肽是蛋白质的类似物,具有生物相容性、生物降解性和刺激响应性。迄今为止,通过α-氨基酸-N-羧酸酐(NCA)聚合制备具有精准末端官能团和窄分布系数(D,Mw/Mn)的聚肽仍然面临一些重大挑战。虽然伯胺引发的NCA聚合主要通过常规胺机理(NAM)进行,但引发剂自身的碱性(pKa~10-12)也会导致基于活化单体机理(AMM)的副反应。增长链末端的伯胺基团也与副反应有关,例如其与溶剂(DMF、DMAc
学位
由于细胞具有对其周围机械环境做出反应的能力,所以细胞的生物学行为可以通过基质的机械特性来引导。而基质的刚度作为最重要的机械特性之一在很大程度上会影响细胞的生物学行为,例如:铺展、形态、迁移、增殖和分化。并且绝大多数的细胞生物过程都伴随着周围基质刚度的动态变化,例如生长,发育、衰老、纤维化、癌变以及凋亡等。因此建立刚度动态可调的细胞培养基质以模拟体内动态力学环境来研究这些生物过程是十分必要的。磁纳米
学位
Higgs粒子的发现开启了粒子物理的新篇章,精确测量Higgs粒子的属性成为了当前粒子物理最为迫切的任务之一,因此正负电子Higgs工厂被普遍认为是目前世界上最应该建造的下一代对撞机。环形正负电子对撞机(CEPC)是由中国粒子物理学界提出的一个Higgs工厂计划,其物理目标对探测器性能提出了严格的要求,尤其是要求喷注能量分辨达到30%/(?),这比目前已有探测器的最好性能好两倍。为了满足这一性能要
学位
本篇论文工作利用欧洲核子研究中心(CERN)ATLAS探测器在2015-2018年间收集到的大型强子对撞机(LHC)上的质子质子对撞数据,基于双轻子和丢失横能量末态进行新物理的寻找工作。LHC是当前世界上能量最高,规模最大的粒子对撞实验。在2015-2018年间,LHC产生了大量质心能量为13 TeV的质子质子对撞事例,而ATLAS探测器作为工作在LHC上的几大探测器之一,在此期间收集到了总亮度为
学位
近一个世纪的天文观测,使暗物质成为了现代基础物理学的一个重要问题。虽然有众多的观测支持,但几乎所有关于暗物质存在的证据都来自引力效应。人们提出了很多暗物质的理论猜想,但对暗物质的确切认知接近空白。为了找寻暗物质,回答暗物质究竟是什么这个问题,粒子物理学家尝试在地下低本底环境探测暗物质与普通物质发生相互作用的信号,在加速器上找寻人工产生暗物质粒子的迹象,在宇宙线中找寻暗物质粒子的湮没产物。随着暗物质
学位
2012年大型强子对撞机(LHC)实验发现Higgs玻色子,使得粒子物理领域的标准模型获得了前所未有的成功。标准模型不但在实验上验证了其所预测的全部基本粒子,并且成功的解释了大量的实验数据。即便如此,自然界仍存在一系列基本的科学问题无法得到合理解释,如宇宙中物质与反物质的不对称性、不同代基本粒子的质量等级差异、暗物质和暗能量的本质等。由此,标准模型被认为并非是物理学家们追寻的最终理论,自然界必然存
学位
人类基因组大约含有20000多个编码蛋白质的基因,然而它们只占约2%的序列。基因组中98%的非蛋白质编码序列也被称为非编码区,其中绝大部分可以被转录为非编码RNA,它们构成了物种之间最主要的差别。由DNA、蛋白质、非编码RNA和小分子组成的分子调控网络蕴含着生命活动的基本规律,决定了细胞的命运。目前已知有大量疾病相关的突变都发生在非编码区。与非编码RNA相关的研究处于生命科学的前沿领域,充分体现了
学位
在经济金融和生物医学等领域的数据分析中,需要处理的响应变量往往取值为正.由于乘积回归模型其响应变量是非负的,成为研究这类数据集的重要统计模型.乘积回归模型又称加速失效时间模型(AFT),是生存分析的重要研究对象.乘积回归模型不仅可以研究协变量是向量的形式,同时也可以处理协变量是函数型的数据.回归模型一般以绝对误差为基础,建立估计方法,研究理论性质.然而在一些实际应用中,比如金融数据,人们往往更关心
学位