论文部分内容阅读
全基因组关联研究是人类基因组计划完成后实施的一种对复杂疾病的成套DNA全基因组测序和扫描计划,以试图发现疾病的基因变异和单核苷酸多态性,研究并确定疾病易感区域和相关基因,寻找疾病标记物,实现疾病的早期诊断和有效的个性化治疗,开发新的药物和采取特异性防治措施。此类研究是在全基因组层面上开展的多中心、大样本和反复验证的基因与疾病的关联研究,试图全面揭示疾病发生、发展与治疗相关的遗传基因。为达到关联研究的目的,许多有前景的算法或专用工具软件相继问世。虽然现有算法在计算和统计学上被验证为有用工具,但有研究指出它们在通用数据上的表现还存在较大的不明确性。同时,由于全基因组数据本身具有数据量庞大、离散等特殊性,使得现有算法在算法效率、统计功效和假阳率等方面并不尽人意,所以,进一步发展新的全基因组关联研究算法仍然是生物信息学研究人员需要不懈努力的方向。为此,本文开展了以下研究工作:(1)分析和研究了最大信息系数(Maximal Information Coefficient,MIC)。MIC是一种新颖的统计方法,它能够很好地满足相关变量分析中的公平性和通用性,明显优于常见的皮尔逊系数、Spearman系数、互信息、CorGC和最大相关系数,因此本文将该方法引入全基因组关联研究。本文从数学上讨论了MIC原理,证明了它的一个重要递推式,详细介绍了MIC算法的实现步骤,最后分析了把MIC直接引入到基因型数据的全基因组关联研究的不足和基于MIC的全基因组关联研究的可行性。(2)提出了基于MIC的疾病-SNP关联搜索算法MICSNPs。MICSNPs使用蒙特卡洛置换检验把MIC值映射到P值,消除了MIC值波动的影响,同时结合基于滑动窗口二分搜索算法来节约算法时间(该算法时间约为线性搜索的0.58%)。为了使MICSNPs在算法统计功效、假阳率和算法时间三者之间取得最佳折衷,本文还研究了蒙特卡洛采样数与上述三项指标之间的关系,发现了最佳的蒙特卡洛采样数为2~4倍的生物标记数量,与样本大小无关。基于真实全基因组关联数据和仿真数据的测试结果表明,在把蒙特卡洛采样次数缩减为标记数量的4倍并使用基于滑动窗口的二分搜索算法后,MICSNPs无论在计算性能及统计学上均是可行和有效的,且其整体性能优于现有算法。(3)提出了基于MIC的疾病-SNP关联搜索算法mBoMIC。首先,通过对传统Bagging算法的修改,本文提出了一种mBagging(modified Bagging)算法,其中心思想就是把传统Bagging算法相同的袋内和袋外自举抽样数据量改变为不同,且要求袋内数量少于袋外数量。由于较少的袋内数据在保证最佳统计功效的同时降低了计算复杂度,而较多的袋外数据又进一步提高统计功效,所以mBaggnig算法达到了在缩减算法时间的前提下提升统计功效的目的。另外,较少的袋内数据,减轻了传统Bagging算法的“过拟合”现象,因此,mBagging算法的假阳率比传统Bagging算法的低。本文提出的mBagging算法的主要贡献是把原本矛盾的“统计功效”、“假阳率”和“算法时间”三个指标同时得到了较大的改善。接着,使用本文提出的mBagging算法对MIC方法进行组合,形成了一种新型的疾病-SNP关联搜索算法mBoMIC。mBoMIC算法结合了MIC和mBagging算法的优点,克服了MIC的低统计功效并避免了MIC值的波动现象。在500组数据上,本文将分别使用20、400作为袋内、袋外数据抽样数的mBoMIC算法与使用抽样数为400的传统Bagging算法相比较,mBoMIC算法的平均算法时间减少了80.3%、平均统计功效增加了15.2%、平均假阳性率减少了31.3%。最后,采用仿真和真实数据测试mBoMIC算法,结果表明新算法比现有算法具有更好的统计功效,在生物标记选择上是一种可行的算法。(4)构建了基于MIC的疾病相关差异表达基因/microRNA识别算法。全基因组关联研究算法不仅可用于探索基因型数据,也能分析基因/micro RNA表达数据。本文利用MIC构造了基因/microRNA表达谱分析算法,用于全基因组微阵列表达数据中挖掘与疾病关联的基因/microRNA。本文采用新算法分析了一个房颤-对照的基因表达数据和一个瓣膜性心脏病-对照的microRNA表达数据,识别出41个房颤差异表达基因,其中有14个基因是已有工作未发现的新差异表达基因。信号通路和富集分析表明,这些差异表达基因与房颤高度相关;发现了2个强烈差异表达的microRNA,其中hsa-miR-221*是已有工作未发现的新差异表达microRNA。本文顺利地把MIC引入到了全基因组关联研究,克服了MIC的不足,建立了MICSNPs、mBoMIC和微阵列基因/microRNA表达谱分析等多种有效算法,为从全基因组数据中搜索和识别复杂疾病关联的生物标记提供了重要的计算工具。