基于表型以及微阵列数据的基因(型)分类技术研究

来源 :扬州大学 | 被引量 : 1次 | 上传用户:bbxxxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分离分析(Segregation Analysis, SA)是直接根据分离群体数量性状的表现型检测主基因是否存在并估计其效应的一种统计遗传分析方法,是进一步进行QTL作图和基因组分析的基础。在数量性状主基因和微基因独立的遗传假定下,同一主基因基因型将呈现连续性的正态分布,不同主基因基因型则将是具有不同平均数和相同方差的多个正态分布的混合。因此,分离分析通过高斯混合模型的构建、参数的极大似然估计以及似然比检验统计量的计算,从而实现主基因的效应估计和各种遗传假设测验。然而,现有的分离分析方法均是基于单一性状进行的,主基因的统计功效较低。为此,本研究提出一种多性状主基因联合分析方法—多元分离分析方法(Multivariate Segregation Analysis, MSA),MSA可以充分利用多个数量性状间的遗传相关和剩余相关信息,因此有望提高主基因的检测功效,以及剖析复杂性状的遗传结构。MSA通过建立多个多元高斯分布的混合模型,采用EM算法实现的极大似然估计方法进行主基因的分离比例、主基因效应和剩余变异估计,以似然比测验统计量进行主基因的各种遗传假设检验,以一因多效、独立遗传和紧密连锁3种可能模型下的贝叶斯信息准则(Bayesian Information Criterion, BIC)来区分主基因是一因多效还是紧密连锁。为了验证方法的可行性,模拟研究以F2群体为例设置了两套模拟实验,模拟实验1研究不同主基因遗传力和样本容量下MSA的统计功效、主基因效应和剩余变异估计的准确度和精确度。模拟实验2研究不同遗传力下MSA区分一因多效主基因或紧密连锁主基因的能力。计算机模拟研究结果表明:(1)无论主基因是同时控制多个性状的表达,还是仅控制其中一个性状的表达,由于联合分析充分利用了性状之间的相关信息,MSA均可以显著提高主基因的被发现能力。(2)MSA可以显著增加主基因效应估计值的准确度和精确度,通常来说,只要主基因的检测功效高达50%以上,其相应估计值的准确度和精确度均可达到较理想水平。(3)MSA还能够有效的区分多性状是受一个主基因控制还是受紧密连锁的多个主基因控制。(4)对遗传力和样本容量两个影响主基因检测功效的关键因素来说,其作用效果则是遗传力明显大于样本容量。以水稻杂交组合多蘖矮×中花11的F2群体597个植株株高和分蘖数为例演示了分析程序。结果表明该组合的株高和分蘖数受同一主基因控制。该主基因对株高的加性和显性效应分别为-21.3 cm和40.6 cm,表现为超显性;对分蘖数的加性和显性效应则分别为22.7和-25.3,表现为接近完全显性。上述MSA不仅可以估计模型中的遗传参数,而且可计算出每个个体属于不同主基因基因型的后验概率,因此,本研究提出根据个体的贝叶斯后验概率进行个体分类的新方法,即一种基于模型的非监督动态聚类方法。该方法同样是以EM算法实现的极大似然估计方法实现各个类参数估计,以个体所属类别的贝叶斯后验概率判别个体的归类。模拟研究结果表明:(1)该方法通常既可无偏估计类参数又可根据各种模型的BIC值确定最佳分类个数,从而解决传统动态聚类法类数难确定的问题。(2)与重心法动态聚类(k-means)和最小组内平方和法(Minimum Square Sum Within Groups, MinSSw)动态聚类相比,稳健性较高。(3)通过提高判别标准,可以有效降低误判率(Misclassified Rate, MR)。以Fisher的Iris试验数据验证了方法的可行性,分析结果表明基于似然函数极大为目标的非监督动态聚类方法特别适于原始数据为高斯分布的数据聚类,其误判率显著低于k-means和MinSSw法。DNA微阵列技术是后基因组时代功能基因组研究的主要工具之一,它可以一次同时测出不同实验环境或不同组织的成千上万个基因的表达水平。将相似表达模式的基因聚在一个类中的基因聚类分析,是提取基因表达谱数据潜在生物学信息的有用工具,同时也是微阵列数据分析中使用最为广泛的一类方法。聚类技术依据先验信息的有无,又可分为非监督聚类和监督聚类。为了探讨上述基于模型的聚类方法应用于高维微阵列表达谱数据分析的可行性,分别用计算机模拟数据、酵母细胞周期微阵列数据以及人类癌细胞NCI-60微阵列数据进行聚类分析,并与k-最近邻居法(k-Nearest Neighbour, KNN),二分类支持向量机器(Supprot Vector Machines, SVMs)以及多分类SVMs(Multicategory SVMs, MC-SVMs)法分析结果进行比较,采用假阳性(False Positive, FP)、假阴性(False Negative, FN)、聚类的准确性以及马修斯相关系数(Matthews’Correlation Coefficient, MCC)等指标比较不同监督聚类方法的优劣及其适用场合。结果表明:(1)对成千上万基因表达谱数据,基于模型的聚类法聚类准确性最高,且在训练样本容量较小的情况下,同时利用已知基因和未知基因的先验信息指导未知基因归类的基于模型的监督聚类法,比仅利用已知基因的信息指导未知基因归类的基于模型的判别分类准确性要高,但运算速度较慢。(2)相比较而言,MC-SVMs法稳健性较高,适用性最广,其对高维数据不敏感。不仅适用于成千上万基因表达谱数据的聚类,聚类准确性仅次于基于模型的监督聚类法;而且适用于以成千上万基因作为指标对少数几十个样本的聚类,聚类准确性最高。(3)几种MC-SVMs法的表现,在样本容量较大时,宜采用OVO(One-versus-one)和DAGSVM(Directed Acyclic Graph SVM)法;样本容量较小时,OVR(One-versus-rest)、WW(Method by Weston and Watkins)和CS(Method by Crammer and Singer)法聚类准确性和MCC值较高;样本容量适中时,5种MC-SVMs表现一致。(4)建议根据数据的特征以及实验需要,同时选用至少两种方法进行试算,以便获得最佳聚类结果。
其他文献
本文以昆明市某大型三级甲等公立医院作为调研地,针对医院管理者、普通医护人员及患者进行问卷调查及基础数据收集,在此基础上对医疗风险致因进行分析,在此基础上提出大型公
近年来,随着人们收入水平的提高和健身意识的增强,威海市民参加游泳培训班学习游泳的人数不断增多,游泳培训市场日趋火热。本文通过文献资料法、访谈法和问卷调查法,对威海市
目的观察气管切开患者气道内湿化不同护理方法的临床疗效。方法将我院2009年1月—2012年9月住院治疗的60例气管切开患者按照住院先后顺序分为观察组和对照组两组,每组患者各3
目的探究超声引导下罗哌卡因股神经坐骨神经阻滞对老年髋关节手术患者血流动力学的影响。方法将2017年2月至2019年2月于该院择期行髋关节手术的110例老年患者按抽签法随机分
<正>互联网似乎正把传统报业逼上"绝路",却又在让报业获得新生:催生另一类新闻业。这类新闻业目前还没有现成模式,总名称可以冠以"2.0新闻业"(Journalism 2.0),是指适应传播
一个剧种的传播史,就是一部剧种的发展史。纵观黄梅戏的发展历程,我们发现黄梅戏剧种的传播在很大程度上决定了这个剧种的发展走向和基本面貌。从舞台传播到大众传播,戏曲传
知识组织是实现知识服务的重要基础。用户信息资源是国防科技信息资源的有机组成部分,必须以知识组织的思路和方法进行管理,才能发挥其应用的价值。本文研究了国防科技用户信
结合淮安市天津路大运河桥主墩支座更换工程实践,提出了单主墩左、右幅粱体同时同步顶升及顶升力和位移“双控”技术,并通过现场监控,控制最大顶升量和左右幅顶升高差,顺利实现了
台湾终身学习社会的发展,得益于社会各教育机构与组织的贡献,这些机构与组织涵盖各级正规、非正规及社会教育机构,为民众提供了多元化的终身学习资源与服务。"贯穿正规教育体