论文部分内容阅读
目前,研究基因组上序列的变异(或多态性位点)与疾病的关系成为揭示复杂疾病遗传机制的关键步骤。全基因组关联分析方法已经取得了显著的成效。随着二代测序技术的发展和1000人基因组计划的进行,人们又发现了大量的稀有变异,共同对疾病的产生起着至关重要的作用。然而对于稀有变异的序列层面的研究却相对比较滞后,主要原因在于现有统计方法在研究稀有变异时的无效性。鉴于此,近年人们不断探索开发出了不少相应的方法,其中重要的思想就是将稀有变异按照一定的功能区域进行折叠,进而加大其在群体中的频数以适应传统统计方法的需要。
本研究从稀有变异风险位点挖掘的折叠算法出发,将研究稀有变异的思想应用于所有风险变异位点,希望结合现有的染色体功能保守区域,如基因、基因外显子区域、子通路以及GO功能节点等,将序列谱和功能区域结合在一起,更好的寻找疾病相关的风险区域。折叠后获得的“虚拟谱”信息既包含了功能信息又包含了序列信息,然后通过全基因组关联分析(GWAS)挖掘与疾病显著关联的染色体区域。基于统计模型的效能和稳健性,我们选取Pearson卡方检验和Cochran-Armitage趋势检验进行全基因组关联分析。
我们将上述方法应用于GAW国际会议提供的类风湿性关节炎数据。利用折叠算法,我们以所有已知的编码和非编码基因作为折叠的染色体功能区段与其上包含的SNPs信息融合,利用GWAS方法,找到与疾病关联的风险基因59个(SNPs位于基因上下游5kb之内)和94个(SNPs位于基因上下游1kb之内),其中有效的识别了部分已有文献证实与类风湿性关节炎疾病相关的基因,如HLA-DRA和HLA-DQA1等。令人感兴趣的是,由于我们选取的基因包含非编码区域,因此在风险基因的挖掘结果中恰好都包含了2个miRNA:miR877和miR219-1。随后,结合TargetScan数据库的靶基因信息和Transfac数据库的转录因子信息,我们构建了风险基因、miRNA及其靶基因、转录因子之间的互作关系网络,尝试结合转录因子进一步探索基因与疾病的关系。选取的基因-SNPs距离为1kb范围时,我们构建的调控网络中除了miR877和miR219之外,还有HLA-DRA、HLA-G、IFITM1和C4B几个风险基因编码转录因子或者被转录因子调控,并且文献已经证实它们在类风湿性关节炎发生发展过程中起到重要的作用。