论文部分内容阅读
动植物中绝大多数与人类经济相关的重要性状都是数量性状,解析数量性状的遗传基础,将会对动植物的遗传改良和人类复杂疾病的防治有着非常重要的意义。目前,全基因组关联分析方法(genome-wide association studies,GWAS)是研究数量性状最常用的方法。随着生物测序技术的快速发展,分析数以百万计的标记将成为常态。那么全基因组关联分析需要在有限样本中检测大量的SNP,将会面临着在高维度的数据集下的变量选择问题。虽然许多单标记方法能够解决此问题,但是这些方法因Bonferroni矫正而只能检测到较少QTN(quantitative trait nucleotide)。这些检测到的QTN遗传率之和远小于性状遗传率,显然丢失了不少的QTN。为克服这个问题,本实验室提出了一系列多位点全基因组关联分析新算法,ISIS EM-BLASSO(Iterative modified-Sure Independence Screening EM-BayesianLASSO)就是其中之一。为了让应用工作者更方便的使用新方法,本研究开发了基于R软件的windows界面ISIS EM-BLASSO软件包。其主要研究内容包括:1)以 R 附加包 gWidgets、gWidgetsRGtk2、RGtk2Extras、cairoDevice、ggplot2、lars和ncvreg为基础,将数据输入与结果输出等界面设计、ISIS EM-BLASSO的核心算法和绘图功能有机整合,形成多位点全基因组关联分析ISIS EM-BLASSO软件包。其中gWidgets包提供了一种方便快捷的创建GUI功能,RGtk2Extras包能够显示海量的数据,RGtk2包提供了动态显示滚动条的函数,cairoDevice包能够在自定义界面中嵌入R图形,而多位点ISIS EM-BLASSO算法的核心代码需要依赖ncvreg包和lars包实现;为了绘制LOD得分图,借助了图形化工具包GTK+和作图包ggplot2,用户可根据需要,更改图片大小、精度、分辨率和检测的显著QTN的LOD线颜色。将研制完成的 ISIS EM-BLASSO 软件包上传至 https://cran.r-project.org/web/packages/mrMLM/index.html网站上,R网站将R代码转换成Mac和Linux主流操作系统能运行的代码,使该软件包能在Mac、Windows和Linux操作系统下运行。由于该软件包并不需要借助于其他计算机语言,保证了软件包的简便性、规范性和稳定性。2)利用ISIS EM-BLASSO方法和pLARmEB方法分析了拟南芥中三个与花期相关的性状,即分别在10℃、16℃和22℃条件下的开花时间(FT10、FT16和FT22)。用本软件包检测到了 79个显著关联的SNPs,比pLARmEB方法多检测到了 26个显著的SNPs。在这些显著的SNPs附近发掘到了 35个前人已报道的基因,比pLARmEB方法多发掘了 19个与目标性状相关的基因。用ISIS EM-BLASSO方法和FASTmrEMMA方法分析了另外两个与花期相关的拟南芥性状,即在温室里8周春化作用开花时间(8WGHFT)和在温室里8周春化作用叶片数目(8WGHLN)。用本软件包检测到了 49个显著关联的SNPs,比FASTmrEMMA方法多检测到了 18个显著的SNPs。在这些显著的SNPs附近发掘到了 23个前人已报道的基因,比FASTmrEMMA方法多发掘了 11个与目标性状相关的基因。这说明ISIS EM-BLASSO方法检测基因能力最强,验证了 ISIS EM-BLASSO方法的有效性。3)本软件通过点击Input Dataset按钮,弹出输入数据对话框,根据要求导入相应格式的基因型数据和表型数据,其中基因型数据的格式包括mrMLM数值型、mrMLM字符型和Hapmap(Tassel)型。当基因型和表型数据导入成功后,点击Do按钮进行数据集的格式转换或表型与基因型个体匹配。点击Population Structure按钮,弹出群体结构是否导入对话框。若分析的数据需要把群体结构放入关联分析中,请选择直接导入群体结构文件。当基因型、表型和群体结构成功导入软件后,请设置关键P值(默认值为0.01),再点击Run按钮,程序便开始运行,程序运行的进度可通过进度条获知。程序运行结束后将会得到关联分析的结果,本软件能够将此结果可视化,并绘制LOD得分图。本软件是以操作简单为设计理念,极大方便了遗传育种工作者的使用。