基于混合线性模型进行遗传数据分析的异常值检测方法

来源 :浙江大学 | 被引量 : 3次 | 上传用户:resiaton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用混合线性模型进行遗传数据分析对于统计学家和遗传学家来说都是一种挑战,因为无论是线性、二次性还是似然估计方法都会在很大程度上受到自变量或依变量中的异常数值的干扰。要了解异常值对分析结果的影响,唯一的方式是通过反复地数据质量鉴定和模型优化。基于上述考虑,本研究借助于MINQUE(最小二次范数无偏估计)和AUP(调整的无偏预测)方法(表示为:方法Ⅰ),提出了利用混合线性模型进行遗传数据分析的异常值检测方法,并将该方法与基于EM算法和BLUP(最佳线性无偏预测)的方法(表示为:方法Ⅱ)进行比较,然后通过两个实例分析来验证方法。本研究首先利用一个常用的遗传模型(包括品种、年份和地点)来演示该方法,并引入一组统计量来评价异常值对分析结果的影响程度,如:Cook距离(CD(β)),Andrews-Pregibon统计量(AP),Cook-Weisberg统计量(CW)和方差比例(VR)是用来评价某个数据点对混合线性模型种固定效应的影响;而Cook距离(CD(e))是用来评价某个数据点对随机效应的影响。采用C++编程语言编写了计算机模拟程序,通过蒙特卡罗模拟方法产生模拟数据,随机设定若干异常值,并运用本研究提出的方法来检测异常值,来检验方法的有效性和可靠性。结果表明,利用上述的异常值评价指标,方法Ⅰ和方法Ⅱ都能够检测到模拟数据中人为设定的异常值,两者具有相似的异常值检测能力。此外,本研究还运用方法Ⅰ和方法Ⅱ对不含有异常值的数据进行分析,来比较两种方法的假阳性率。结果表明,与方法Ⅱ相比,利用方法Ⅰ所得到的异常值评价指标更加平稳,因此,方法Ⅰ在异常值检测方面更加稳健。另外,在模拟数据中,针对特定品种、年份和地点的组合设定异常值。大多数情况下,方法Ⅰ和方法Ⅱ都能检测到这类异常值,对于有些例子,方法Ⅰ能够具有更强的检测能力,而对于另一下例子,方法Ⅱ则表现的更好。主要分析结果可总结如下:1)本研究提出的方法可以较好地检测出混合线性模型中的异常表型值。如果模型中只存在少量离散的异常观察值,无论用方法Ⅰ还是用方法Ⅱ,都能检测到这些异常值。但如果一个品种在同一地点、同一年份存在多个异常值,则无法检测到这些异常值,反正会将正确的观察值判定为异常值。2)基于上述方法,本研究采用C++编程语言编写了一套计算机程序,用于混合线性模型的遗传数据分析,检测异常观测值,并根据统计检验P值的大小来排列异常值。这套程序也可以提供模型中方差分量的估计值和随机效应的预测值。3)在常用遗传模型的分析结果中,有些值异常值会由于其他异常值的掩盖而无法被检测出来,而有些正常的观察值则会由于其它多个异常值的影响而被误认为是异常值。4)在常用遗传模型的分析实例中,异常值的存在可能会严重影响固定效应的估计和随机效应的预测,而去掉这些异常值之后,则可能在很大程度上改进模型的参数估计。对于QTL定位数据,去除异常值之后,可以检测到额外的QTL,并能改进遗传率的估计。两个实例分析的结果都表明,去除异常值之后,都能改进模型的参数估计,当然,我们并不能武断地认为这些去除异常值完全没有生物学意义。5)另外,我们可以将本项目提出的方法拓展到复杂的遗传模型,如:加显模型,加显-母体效应模型等,来分析异常值对遗传效应以及非遗传效应的影响。另外,我们也可以将该方法应用于基因芯片数据分析,来检测芯片数据采集过程中由于机器校准、数据输入以及编码造成的异常数据。
其他文献
我国城市正处于快速发展阶段,常因雨季的到来,降水量增大,给市政排水系统带来巨大压力,情况严重时将导致城市内涝灾害,这将严重影响城市居民生活工作。为此,城市建设时提出了海绵城市概念,市政道路正是海绵城市建设中发挥吸收雨水功能的重要组成部分,是提升城市发展和改善居民生活品质的重要保障。市政道路设计需结合海绵城市理念,才能发挥海绵城市的巨大作用。
目的:卵巢早衰是一种引起闭经、不孕、绝经和泌尿生殖道症状的妇科疾病。目前,激素替代疗法是卵巢早衰患者改善绝经综合征最常用的治疗方法。随着中医药的发展,中药和中西医结合疗法治疗卵巢早衰成为新的选项。激素替代疗法有其适应症和禁忌症,例如,原因不明的阴道出血、急性肝损伤、肝功能不全、血管栓塞和乳腺癌等,都是激素替代疗法的禁忌症。而中医药则被更多的医生选为辅助的治疗手段。方法:本文从现有的文献出发,从治疗
趋化因子与表达于细胞表面的受体共同作用发挥其生物学功能。趋化因子受体均为G蛋白偶联受体,与趋化因子结合后,通过G蛋白变构而使受体磷酸化,进行信号转导。CCR7是由EBV诱导后发现的基因,被认为是EBV在B淋巴细胞上作用的调节因子。CCR7受体表达于各种淋巴组织,并激活T、B淋巴细胞。作为免疫系统中一个重要的归巢受体,CCR7不仅控制B细胞和T细胞归巢、DCs穿过高内皮静脉,而且还能把它们正确定位在
【志愿科类设置】从2021年起,福建省普通高校招生根据选择性考试中首选考试科目为历史和物理划分为“历史学科类”和“物理学科类”,按这两个类别分列招生计划,确定各批次录取控制分数线,分别进行投档录取。【志愿批次设置】1.普通类录取分为本科提前批、本科批和高职(专科)批3个批次(1)普通类本科提前批设常规志愿和1次征求志愿。
期刊
提升学生综合素质、着力发展学生的核心素养是普通高中学科课程标准提出的培养目标,这对教师的专业化发展和核心素养提出了新的要求。为适应高中课程改革和新高考改革,培养一批适教、乐教、善教的双学科复合型高中教师,教育部批复同意开展高素质复合型硕士层次高中教师培养试点。而如何通过学科课程培养师范生的双学科核心素养,是试点专业教学面临的挑战之一。本文紧扣试点专业“化学+生物科学”的培养目标,通过分析化学、生物
写作,本质是以文字表达的形式输出个人知识信息、思想情感的过程,是反映一个人语文综合素养的最集中、最有效的方式。好的高考作文,定然是符合高中语文课程性质、目标要求的,体现的是一个高中毕业生的语文核心素养水平。一、明确高考优秀作文的基本特点和要求根据《普通高中语文课程标准(2017年版2020年修订)》规定的语文课程性质、目标和学科核心素养培养要求,我们可以明确优秀的高考作文应呈现以下一些特点:
期刊
This thesis consists of three chapters. In chapter one, we give survey of the numerical methods for solving the diffusion equation subject to the specification of mass, numerical methods combining the
学位
以微项目的形式将化学能与热能、电能进行融合教学,通过对社会性议题"燃油车会‘消失’吗"的讨论,在证据推理、论证与反论证的过程中实现知识的结构化、在真实问题情境解决中实现用高阶思维包裹低阶思维,将学习素养转化为持续的学习实践,结合工程技术、经济、环保,利用科学理论解决实际问题。
学科的核心素养是学生通过对该学科的学习研究而逐步形成的必需品格与正确观念,它集中体现了该学科在育人方面的价值。现在的高考越来越重视对考生核心素养的考查,因此历史老师在教学中要重视对学生五大核心素养的培育,把诸素养落实在每节课中,从而实现立德树人的目的。教师通过视觉与听觉的强化以及润物细无声的循循诱导逐渐培养了学生的观察、分析与解决问题的能力,同时也使学生的核心素养得到提高。
目的:探讨前牙种植修复患者美学修复效果及影响因素,为前牙种植修复提供参考。方法:选取2020年1—8月在医院内因前牙区缺失行种植体种植修复治疗的患者80例(86牙)作为观察对象,调查患者一般情况、口腔卫生习惯、牙缺失时间、种植体及种植过程相关因素。采用单因素分析软组织美学相关因素,采用Logistic多因素回归分析软组织美学影响因素。结果:86颗牙均种植成功,种植成功率为100.00%;术后3个月