论文部分内容阅读
本文主要研究高维大规模统计推断及其在基因组数据中的应用.随着大数据时代的到来,包括基因组数据在内的大数据呈现出高维特点以及数据内部存在着复杂的相关性.无论如何,数据高维性(p n)和统计相关性的出现都给传统的统计方法和理论带来了空前的挑战,因此高维性和相关性也使得大规模统计推断问题(e.g.多重检验问题)更加前所未有的难以解决.在本文中,针对高维(p n)存在着复杂相依性结构的数据,我们首先考虑在单个隐马尔可夫链模型(HMM)相依性结构下,基于权重先验信息,为相依的大规模多重检验发展了一个具有神谕性和渐近最优性的加权假发现率(WFDR)控制过程;然后在拓展的学习出的多个隐马尔可夫链模型(multi-HMM)相依性结构下,我们为组(group)相依的大规模多重检验发展了一个具有神谕性和渐近最优性的假发现率(FDR)控制过程;接下来基于套索(lasso)模型在一个一般的相依性结构下,我们发展了一个具有神谕性和渐近最优性的假发现率(FDR)控制过程.另外,随着大数据时代的到来,探索和发现诸如生物学、社会学等领域里的高维数据集中复杂的相依网络结构也逐渐成为非常重要的问题.而高斯图模型以及更一般的矩阵高斯图模型的学习被越来越多的文献证实是研究这些数据相依性结构的一个极其有效的方法.在本文的第五章我们首次提出用一个多重检验过程的方法来学习高维矩阵高斯图模型的结构,并给出相关理论和应用情况.我们将上述的理论应用于高维有着复杂遗传背景的基因组数据:全基因组数据和生物医学成像数据.以大规模多重检验为主导的全基因组关联分析方法已成为一个非常受欢迎的用来识别新的复杂疾病中遗传变异点的工具,在全基因组关联分析问题当中,需要同时对数以万计的SNP进行检验来找出一些与性状有关的SNP,这些检验由于遗传过程中的连锁不平衡等因素是相关的,而且检验问题是建立在高维数据背景下的(p n).对于基因表达数据和生物医学成像数据而言,这类数据是以复杂结构的数组或者矩阵张量形式存在的,同样具有高维以及多维特点,分析这类数据的一个主要目的就是识别数据内部复杂的网络结构,这些结构对进一步了解生命现象以及新药物的研制等等都有极大帮助.第一章首先介绍了全基因组关联分析中单核苷酸多态性(SNP)数据和生物医学成像数据的背景,然后回顾了一些重要概念和现有的一些与我们的工作相关的一些方法.此外,本章还介绍了全篇论文的结构和本文的主要内容.在第二章中,从贝叶斯假设检验角度出发,首先假设可观测数据服从一个隐马尔可夫模型,然后基于每个假设的重要性权重先验信息,本章发展了一个具有神谕性和渐近最优性的加权假发现率(WFDR)控制过程,最后针对SNP数据,本章提出了一种新颖的自适应的方法来获得渐近最优的权重,接着用本章提出的过程来分析全基因组的SNP数据.本章从理论分析和数值分析两方面评价了提出的新过程的表现.第三章通过一个自适应的惩罚准则结合动态规划算法学习出能将整个相依数据链划分为更加时齐的区域的变点(change points).然后基于这些变点就可以得到SNP数据多个隐马尔科夫链模型相依性结构或者说是组(group)相依的结构.本章进一步拓展了现有的LIS和PLIS方法来分析来自多个染色体上多个隐马尔科夫链模型相依结构下的检验.然后本章把提出的可以分析组(group)相依检验的过程应用到一个实际例子上.在第四章中,针对高维(p n)情形,基于套索(lasso)模型推导出存在一般相依性结构的检验统计量,然后基于一个相依性调整的隐条件随机混合模型发展了一个最优的FDR控制过程进行多重检验.模拟数值研究表明新过程享有优越的表现.最后将这个新过程进一步应用到全基因组关联分析中的性状位点(eQTL)定位这个实际数据研究问题当中.第五章给出一个多重检验过程来检验矩阵高斯图模型中的条件独立型结构,并给出相关的理论结果,这部分工作正在进行中.第六章总结了前面各章的结论,并提出了可以进行的后续研究.