条件非参数独立筛选及在基因数据中的应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:jijipanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在遗传学研究中,全基因组关联分析(GWAS)是研究复杂疾病与基因关系的一种常用分析方法,该方法通过研究目标基因与特定疾病之间的相关关系以此找出与疾病关联性较强的基因,自从2005年Klein等人通过基因关联分析成功找出影响黄斑变性的基因,己陆续帮助科学家筛选出与冠心病、肥胖、2型糖尿病、精神分裂症等复杂遗传疾病相关的基因点位.
  随着基因分型与测序技术快速发展,使得获取成千上万基因点位数据变为可能.这就意味着我们将面临高维数据问题,这使得传统的统计理论与方法受到较大的挑战.在实际的高维基因数据研究中,基因与基因、基因与环境(例如,年龄、性别等)的交互作用都会对某种疾病产生影响,传统方式只考虑构造单个基因位点与疾病之间的边际关系,忽略了这种交互作用,这可能会导致某些误判,会降低基因筛选的准确度.同时在基因测序过程中,每个基因点位基因型的精确测量是比较困难的,通常情况我们只知道该位点三种基因型的概率,其真实的基因型无法获得.已有的关联分析方法主要考虑线性模型,模型结构的假定限制了其适用范围,非参数可加模型可以不用对模型结构进行假定,具有更强的适用性.为此,本论文考虑己知某些重要变量情形下,基于非参数可加模型对基因型不确定数据进行致病基因筛选,并提出了条件非参数筛选(CNIS)方法,在一些适当的条件下,证明了该方法第一阶段的筛选具有一致性筛选性质,能以概率1保留重要的变量;第二阶段的变量选择也具有良好的相合性.根据Monte Carlo数据模拟结果表明,该方法相较于NIS方法有更好的表现.
其他文献
改革开放三十多年来,发展问题已成为中国人思维方式和政治话语系统得以逐步转换的中轴。这不但需要人们从技术操作层面对“如何发展”的问题、从政治层面对“实现什么样的发展”的问题进行思考,更需要我们从马克思主义哲学的学理层次,并借鉴现当代其他理论思潮的理论视角,对当代中国社会的快速发展和急剧转型进行合理的反思和建设性批判。而马克思所开启的资本批判视角和一些现当代思想家所执着的现代性批判视角,无疑为我们深入
苏联哲学教科书对毛泽东《实践论》、《矛盾论》(下文简称为“两论”)的形成产生了重大影响。剖析这些影响,不仅有助于人们从理论渊源上理解毛泽东哲学思想的形成和发展,有助于人们更为深入地理解影响中国革命和建设实践逻辑进程的深层因素;更为重要的是,通过这一研究,有助于人们了解和学习毛泽东如何将马克思主义基本原理与中国革命的具体实际相结合,并在这种结合中发展马克思主义的科学精神和科学方法,有助于人们在理论和
学位
农业从古至今都是我国的支柱型产业,在经济发展中发挥着重要的作用,但由于农业自身生产周期较长的特殊性,自然条件的变化以及市场价格的波动会对农业的生产情况产生很大影响。这也就意味着,农业的发展不能靠其自身的自给自足而需要国家给予大力的支持,以保证其健康持续的发展。广西作为西部少数民族地区和后发展欠发达地区,农业人口占比大,广西农业发展对财政支农资金的要求更为紧迫,任务更为艰巨。研究广西财政支农支出的效
改革开放四十年来,中国经济发展取得巨大成就,规模庞大的流动人口是城市化、工业化进程的重要驱动要素,但他们在共享改革发展成果方面相对处于弱势,集中表现在基本公共服务的保障、合法权益的维护、生活条件的改善等方面,致使流动人口的城市融入问题备受关注。在流动人口财富积累水平偏低、缺乏财产性收入的情况下,工资性收入几乎构成了其收入的全部来源,成为流动人口融入城市发展的经济保障,因而工资收入水平直接影响到流动
学位
2020年中央农村工作会议强调:“加大财政涉农资金统筹整合力度,发挥财政资金的撬动作用,引导社会资本和信贷资金投入农业农村;深化农村金融改革,发展普惠金融,支持涉农金融机构的金融科技创新和应用,更好地服务农业农村”。同时,2021年中央一号文件指出:坚决把解决好“三农”问题作为工作的重中之重,加快农业农村现代化,实现农民生活富裕富足,农民增收增长继续快于城镇居民。在继续实施精准施策和帮扶机制的基础
当数据量非常大或者数据以分布式的方式存储时,由于计算机存储和内存的限制以及通信成本等方面的考虑,传统的统计推断方法不再可行。为了有效地解决大数据情形下的分位数回归模型参数估计问题,本文基于分治策略的框架下提出了一种基于平滑经验欧氏似然的分位回归分布式估计量。分治策略的优势在于只需要在本地设备中计算并传输一些低维的统计量,然后利用渐近可以忽略的误差,就获得整个数据集分位数回归模型的参数估计。在一定条
添加次序试验是一种研究材料或成分的添加顺序对结果有影响的试验,这种试验的主要目的在于预测和确定优化反应中反应物的最优添加次序。由于添加次序试验的广泛应用空间,许多学者提出了不同的模型和设计表,但当整个添加次序试验要考虑试验因子的因子效应对结果的影响时,相关的设计方法和理论变得复杂,现有的方法也较少。针对这种情况,本文提出了一种设计表构造方法,基本思想是将部分全添加次序设计表与两水平部分析因设计表通
学位
在疾病筛查的研究中,分组检测(Group Testing)是一种常用方法,该方法通过集合多个样本合并检测进行个体性状分类,替代了单体检测来筛选患病个体,具有节约成本的优势.1943年Dorfman提出的分组检测方法被认为是该领域的开创性发展,自那开始,该方法得到越来越多统计学者的关注,目前已经应用至公共医疗卫生、生物、化学、药物筛选、基因选择等领域,为大规模人群疾病筛查节约了成本.我们讨论的分组检
学位
超高维数据普遍存在于生物信息、图像处理和经济问题中.在这类数据中,协变量的维度远大于样本量,并且随着样本量的增加而增加,然而起到作用的变量却是少数,呈现出稀疏的特点.在统计建模的过程中,如果选入了与响应无关的变量,一来会干扰对变量间关系的理解,二来今后需要对该变量进行持续观察而加大成本.需要从中筛选出重要的变量以降低协变量的维度.在超高维数据中,传统变量选择方法计算代价高、统计精度和算法稳定性都受
学位
本文主要利用经验似然方法分别研究了非线性回归模型和Probit回归模型误差方差的估计问题,并在一定的假设条件下,证明了该估计量的渐近正态性,得出该估计量的渐近方差比传统估计的渐近方差更小.通过数值模拟验证了本文的主要结论,同时比较本文提出的估计与传统估计的功效.本文的主要内容为:第一章是绪论,对非线性回归模型的研究概况,Probit回归模型的研究概况,经验似然方法的研究概况以及本文研究的内容和创新