多位点全基因组关联分析ISIS EM-BLASSO方法软件包的研制

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:ltqhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动植物中绝大多数与人类经济相关的重要性状都是数量性状,解析数量性状的遗传基础,将会对动植物的遗传改良和人类复杂疾病的防治有着非常重要的意义。目前,全基因组关联分析方法(genome-wide association studies,GWAS)是研究数量性状最常用的方法。随着生物测序技术的快速发展,分析数以百万计的标记将成为常态。那么全基因组关联分析需要在有限样本中检测大量的SNP,将会面临着在高维度的数据集下的变量选择问题。虽然许多单标记方法能够解决此问题,但是这些方法因Bonferroni矫正而只能检测到较少QTN(quantitative trait nucleotide)。这些检测到的QTN遗传率之和远小于性状遗传率,显然丢失了不少的QTN。为克服这个问题,本实验室提出了一系列多位点全基因组关联分析新算法,ISIS EM-BLASSO(Iterative modified-Sure Independence Screening EM-BayesianLASSO)就是其中之一。为了让应用工作者更方便的使用新方法,本研究开发了基于R软件的windows界面ISIS EM-BLASSO软件包。其主要研究内容包括:1)以 R 附加包 gWidgets、gWidgetsRGtk2、RGtk2Extras、cairoDevice、ggplot2、lars和ncvreg为基础,将数据输入与结果输出等界面设计、ISIS EM-BLASSO的核心算法和绘图功能有机整合,形成多位点全基因组关联分析ISIS EM-BLASSO软件包。其中gWidgets包提供了一种方便快捷的创建GUI功能,RGtk2Extras包能够显示海量的数据,RGtk2包提供了动态显示滚动条的函数,cairoDevice包能够在自定义界面中嵌入R图形,而多位点ISIS EM-BLASSO算法的核心代码需要依赖ncvreg包和lars包实现;为了绘制LOD得分图,借助了图形化工具包GTK+和作图包ggplot2,用户可根据需要,更改图片大小、精度、分辨率和检测的显著QTN的LOD线颜色。将研制完成的 ISIS EM-BLASSO 软件包上传至 https://cran.r-project.org/web/packages/mrMLM/index.html网站上,R网站将R代码转换成Mac和Linux主流操作系统能运行的代码,使该软件包能在Mac、Windows和Linux操作系统下运行。由于该软件包并不需要借助于其他计算机语言,保证了软件包的简便性、规范性和稳定性。2)利用ISIS EM-BLASSO方法和pLARmEB方法分析了拟南芥中三个与花期相关的性状,即分别在10℃、16℃和22℃条件下的开花时间(FT10、FT16和FT22)。用本软件包检测到了 79个显著关联的SNPs,比pLARmEB方法多检测到了 26个显著的SNPs。在这些显著的SNPs附近发掘到了 35个前人已报道的基因,比pLARmEB方法多发掘了 19个与目标性状相关的基因。用ISIS EM-BLASSO方法和FASTmrEMMA方法分析了另外两个与花期相关的拟南芥性状,即在温室里8周春化作用开花时间(8WGHFT)和在温室里8周春化作用叶片数目(8WGHLN)。用本软件包检测到了 49个显著关联的SNPs,比FASTmrEMMA方法多检测到了 18个显著的SNPs。在这些显著的SNPs附近发掘到了 23个前人已报道的基因,比FASTmrEMMA方法多发掘了 11个与目标性状相关的基因。这说明ISIS EM-BLASSO方法检测基因能力最强,验证了 ISIS EM-BLASSO方法的有效性。3)本软件通过点击Input Dataset按钮,弹出输入数据对话框,根据要求导入相应格式的基因型数据和表型数据,其中基因型数据的格式包括mrMLM数值型、mrMLM字符型和Hapmap(Tassel)型。当基因型和表型数据导入成功后,点击Do按钮进行数据集的格式转换或表型与基因型个体匹配。点击Population Structure按钮,弹出群体结构是否导入对话框。若分析的数据需要把群体结构放入关联分析中,请选择直接导入群体结构文件。当基因型、表型和群体结构成功导入软件后,请设置关键P值(默认值为0.01),再点击Run按钮,程序便开始运行,程序运行的进度可通过进度条获知。程序运行结束后将会得到关联分析的结果,本软件能够将此结果可视化,并绘制LOD得分图。本软件是以操作简单为设计理念,极大方便了遗传育种工作者的使用。
其他文献
本论文以沉积学、储层表征、石油地质学、层序地层学、储层地质学等理论为指导,综合应用岩心、岩屑以及测井等地质基础资料,采用多种方法对小层进行了划分和对比,同时结合前
泡沫混凝土具有防火,耐久特性,作为建筑保温材料具有广阔的发展空间。目前水泥基泡沫混凝土应用较为广泛,但水泥是一种高耗能,高污染材料,因此采用环境友好型胶凝材料替代水
为了解决多种鸭病病毒没有适合的传代细胞系的现实问题,本论文利用无特定病原体(Specific pathogen free,SPF)鸭开展了鸭胚肝间充质干细胞(Duck embryo liver mesenchymal st
一些国际经验表明,非正式定居区被认为对人类发展产生了负面影响,因此城市地区的竞争仍然是非正式定居区增加和发展中的竞争挑战。根据政策提供的房屋项目进行拆除和重建有多
肝癌(livercancer)是目前全世界范围内最常见的恶性肿瘤之一,其中肝细胞癌(hepatocellular carcinoma,HCC)约占70~90%。据统计,全球每年确诊为肝癌的患者超过78万,其中因肝癌
乳腺癌以每年第一的发病率和第二的致死率成为女性癌症中的第一杀手,临床上通常使用临床肿瘤标志物CA153、CA125对其进行检测。CA125的前体MUC16蛋白,在乳腺癌、卵巢癌等中都
祁连山区是西北干旱区重要的水源涵养地和生态安全屏障,也是甘肃、青海两省主要的畜牧业生产基地。生态环境受气候变暖、干旱、超载放牧、开垦开发等多重影响,该区草地生态系
重离子物理与重离子应用技术是近年来被广泛关注的前沿研究领域,重离子加速器是开展重离子物理与重离子应用技术研究的基础,发展强流重离子加速器是开展重离子物理与重离子应
超级电容器作为一种常见的储能器件,在近年来的发展中极具竞争力。在其常用的电极材料中,金属硫化物因其特殊的层状晶格结构近年来在该领域引起了许多关注。由于该类材料多为
声辐射度是建立在几何声学范畴内,描述具有理想扩散反射边界空间中声能传递的仿真理论模型。本文设计了两个具有高度扩散反射界面的空间,在其中布置声源和若干测点,对脉冲响