论文部分内容阅读
随着人类基因组计划的完成和高通量测序技术的发展,特别是其可以芯片化,这使全基因组关联分析变得成为可能。而在全基因组关联分析中,研究单核苷酸的多态性(single nucleotide polymorphisms,SNPs),即疾病的致病位点 SNPs 是一个十分吸引人和有前景的问题。如果在生物实验前就可以大致确定致病基因位点SNPs,这对实验进行指导的同时也能极大的节省成本。在研究致病位点SNPs的全基因组关联分析中,全基因组数据具有以下两个重要的特征:大量噪音、高维特征。复杂疾病一般是由多个致病基因位点相互作用引起的,这就对只能研究单个疾病位点与疾病关系的传统统计学方法提出了挑战。随机森林模型以处理高维数据和选择重要特征变量而闻名,这使得其对生物信息研究者很有吸引力。但由于全基因组数据维数高达上万维,即使是随机森林模型也难以从如此大量噪音数据中寻找到致病基因位点SNPs。本文基于复杂疾病是由少量致病基因位点SNPs相互作用引起的和全基因组数据是有大量噪音的高维数据这两个基本前提,提出了基于遗传模型和随机森林的致病位点选取方法。考虑随机森林难以在上万维噪音的全基因组数据中选取特征,故本文提出第一步利用是用显性(Dominant)、隐性(Recessive)、共显性(Co-Dominant)、超显性(Over-Domirnant)遗传模型筛选数据集,结果显示绝大部分都是与疾病无关,去除了大量的噪音数据。第二步考察了用随机森林模型在筛选后的数据集中选取致病基因位点SNPs。在这一部分中,我们比较了随机森林在原始数据集和去除噪音数据集上的不同表现,结果显示随机森林在筛选后数据集上的预测率提高了 30%。之后我们又比较了不同参数设定情况下随机森林模型与SVM、GBDT、NB、KNN预测能力差别,结果显示随机森林是这些模型中效果最好的,但同时又是相对复杂度不高的算法。另外随机森林具有的并行化和选择重要变量的特性也是其他模型所不具备。因此,随机森林模型在全基因组数据中选取致病基因位点是有巨大优势的。最后我们设计了一个利用随机森林稳定选取致病基因位点SNPs算法。第三步为了验证基于遗传模型和随机森林方法选取的致病基因位点SNPs的正确性,本文用logistic回归模型对选取的致病基因位点进行了验证,最终证明了所选取的致病基因位点SNPs是具有交互作用的。