高维大规模统计推断及其在基因组数据中的应用

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:linda456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究高维大规模统计推断及其在基因组数据中的应用.随着大数据时代的到来,包括基因组数据在内的大数据呈现出高维特点以及数据内部存在着复杂的相关性.无论如何,数据高维性(p n)和统计相关性的出现都给传统的统计方法和理论带来了空前的挑战,因此高维性和相关性也使得大规模统计推断问题(e.g.多重检验问题)更加前所未有的难以解决.在本文中,针对高维(p n)存在着复杂相依性结构的数据,我们首先考虑在单个隐马尔可夫链模型(HMM)相依性结构下,基于权重先验信息,为相依的大规模多重检验发展了一个具有神谕性和渐近最优性的加权假发现率(WFDR)控制过程;然后在拓展的学习出的多个隐马尔可夫链模型(multi-HMM)相依性结构下,我们为组(group)相依的大规模多重检验发展了一个具有神谕性和渐近最优性的假发现率(FDR)控制过程;接下来基于套索(lasso)模型在一个一般的相依性结构下,我们发展了一个具有神谕性和渐近最优性的假发现率(FDR)控制过程.另外,随着大数据时代的到来,探索和发现诸如生物学、社会学等领域里的高维数据集中复杂的相依网络结构也逐渐成为非常重要的问题.而高斯图模型以及更一般的矩阵高斯图模型的学习被越来越多的文献证实是研究这些数据相依性结构的一个极其有效的方法.在本文的第五章我们首次提出用一个多重检验过程的方法来学习高维矩阵高斯图模型的结构,并给出相关理论和应用情况.我们将上述的理论应用于高维有着复杂遗传背景的基因组数据:全基因组数据和生物医学成像数据.以大规模多重检验为主导的全基因组关联分析方法已成为一个非常受欢迎的用来识别新的复杂疾病中遗传变异点的工具,在全基因组关联分析问题当中,需要同时对数以万计的SNP进行检验来找出一些与性状有关的SNP,这些检验由于遗传过程中的连锁不平衡等因素是相关的,而且检验问题是建立在高维数据背景下的(p n).对于基因表达数据和生物医学成像数据而言,这类数据是以复杂结构的数组或者矩阵张量形式存在的,同样具有高维以及多维特点,分析这类数据的一个主要目的就是识别数据内部复杂的网络结构,这些结构对进一步了解生命现象以及新药物的研制等等都有极大帮助.第一章首先介绍了全基因组关联分析中单核苷酸多态性(SNP)数据和生物医学成像数据的背景,然后回顾了一些重要概念和现有的一些与我们的工作相关的一些方法.此外,本章还介绍了全篇论文的结构和本文的主要内容.在第二章中,从贝叶斯假设检验角度出发,首先假设可观测数据服从一个隐马尔可夫模型,然后基于每个假设的重要性权重先验信息,本章发展了一个具有神谕性和渐近最优性的加权假发现率(WFDR)控制过程,最后针对SNP数据,本章提出了一种新颖的自适应的方法来获得渐近最优的权重,接着用本章提出的过程来分析全基因组的SNP数据.本章从理论分析和数值分析两方面评价了提出的新过程的表现.第三章通过一个自适应的惩罚准则结合动态规划算法学习出能将整个相依数据链划分为更加时齐的区域的变点(change points).然后基于这些变点就可以得到SNP数据多个隐马尔科夫链模型相依性结构或者说是组(group)相依的结构.本章进一步拓展了现有的LIS和PLIS方法来分析来自多个染色体上多个隐马尔科夫链模型相依结构下的检验.然后本章把提出的可以分析组(group)相依检验的过程应用到一个实际例子上.在第四章中,针对高维(p n)情形,基于套索(lasso)模型推导出存在一般相依性结构的检验统计量,然后基于一个相依性调整的隐条件随机混合模型发展了一个最优的FDR控制过程进行多重检验.模拟数值研究表明新过程享有优越的表现.最后将这个新过程进一步应用到全基因组关联分析中的性状位点(eQTL)定位这个实际数据研究问题当中.第五章给出一个多重检验过程来检验矩阵高斯图模型中的条件独立型结构,并给出相关的理论结果,这部分工作正在进行中.第六章总结了前面各章的结论,并提出了可以进行的后续研究.
其他文献
采用调查法、访谈法、观察法对青海民族地区94所乡村学前教育机构进行了研究。结果显示,青海民族地区乡村学前教育整体发展取得了长足进步,但是尚存在一些问题:学前教育机构
<正>目的:总结肺结核合并肺癌的临床特点和病因并探讨其临床意义。方法:分析20年来我科确诊的50例肺结核合并肺癌患者的发病因素和临床表现及X线胸片、CT、病理等征象的情况
会议
教学法、教材和教师“三教”问题一直是对外汉语教学界关注的重点,而教师是“三教”问题的重中之重。为了更好地发展汉语传播与推广事业,国家汉办于2004年启动了汉语教师志愿者项目,其中以赴泰汉语教师志愿者人数为众。伴随项目的不断推进,学界相关研究呈增长态势,但以往的研究多集中于跨文化适应与汉语本体教学方面,而对该群体的专业实践能力研究鲜有涉及。海外汉语教师的专业实践能力对汉语国际传播质量起到至关重要的作
综述建塘藏族起源雅鲁藏布江,发展于吐蕃王朝,元朝起接受蒙古册封进入中国版图,新中国成立后分为若干个省、市、自治区,包括西藏自治区,康巴地区(西藏昌都地区青海玉树藏族自治州、
钢琴艺术指导属于声乐演唱体系中的重要组成部分,其所扮演的角色是不可替代的。在整个声乐演唱体系中,钢琴艺术指导与声乐演唱会彼此作用,通过良好的组合会获得优质的声乐作
目的:调查长期接受美沙酮维持治疗(methadone maintenance treatment,MMT)病人对美沙酮(methadone)和毒品海洛因(heroin)、合成毒品冰毒(methamphetamine)的认知,为门诊日常
对某公司IT系统的建设情况、各IT系统用户数据、存在的用户管理问题等方面进行分析,提出用户管理系统改造的总体方案和实施建议。总体方案基于某公司管理现状,提出“双数据源、
第一部分【目的】本研究旨在采用系统评价的方法,比较在3年以上随访时间内,All-on-4种植修复中倾斜种植体与轴向种植体的临床效果。【方法】在Cochrane Library,Web of Scien
在油田污水处理中,为减少絮凝剂的用量,分析采用电化学絮凝与化学絮凝法联合处理油田聚驱污水。通过正交实验确定电化学絮凝的最佳实验条件:电极板间距为9mm,电解时间为16min
脆性组氨酸三联体(FHIT)是二十多年前发现的第一个跨越染色体脆性位点FRA3B的抑癌基因,其表达在包括胃癌在内的50%以上的人类肿瘤中丢失或沉默。但是,其抑制肿瘤的机制尤其是