论文部分内容阅读
基因拷贝数变异(CNV)指的是不小于lkb的DNA片段的复制、插入、缺失及其他多位点复杂变异。人类基因组中约有12%的区域是基因拷贝数多变区,相对于SNP(single nucleotide polymorphism)约占人类基因组的0.5%的比例,CNV是更为主要的一种遗传变异多态性。现有的研究表明,CNV在人类的生理表型差异,特别是疾病的发生发展过程中具有重要的作用。因此,利用全基因组关联分析的策略,对CNV和疾病之间的关系进行系统的统计分析将是一个非常有意义的课题。
设计了一种全新的统计策略,对CNV和疾病之间的相关性进行统计分析。策略分成两个部分:第一,基于训练集的隐马尔可夫模型(HMM)将SNP信号值转换为基因拷贝数估计值。第二,利用两层的统计策略分析CNV和疾病之间的关联性。两层统计策略包括SNP位点特异的CNV关联统计(命名为SNP site-based testing),和基于pattern聚类的CNV区域统计(命名为window-based testing)。
利用了7种常见疾病(common diseases)的数据(数据来源于WellcomeTrust Case-Control Consortium.WTCCC),来检验统计方法的可靠性。总共鉴定了36个疾病相关的独立CNV易感位点(susceptible loci)。与躁狂症(bipolar disorder,BD; MIM125480)关联的有5个位点,与冠心病(coronary arterydisease,CAD;MIM607339)关联的有4个位点,与克罗恩氏病(crohns disease,CD; MINI266600)关联的有1个位点,与高血压症(hypertension,HT; MIM145500)关联的有7个位点,与类风湿性关节炎(rheumatoid arthritis,RA;MIM180300)关联的有9个位点,与1型糖尿病(type l diabetes,T1D;MIM222100)关联的有7个位点,与2型糖尿病(type2 diabetes,T2D;MIM125853)关联的有3个位点。其中,有15个疾病关联位点可以通过以前的研究得到验证。比较有意思的是,和躁狂症相关的基因都集中在钙离子/磷脂酰肌醇通路;这些证据进一步表明,CNV可能通过此信号转导通路来影响躁狂症的发生与发展。
对同一种疾病的多套数据集进行组合分析,可以更灵敏和更可靠的发现疾病关联的变异,然而由于CNV关联统计本身的特殊性,目前还没有这方面的研究。在第三部分中,发展了一种组合分析多个数据集关联一致性的方法,并且利用多套躁狂症数据集验证了这种方法的可行性。
在第四部分中,对两套肿癌样品数据(约2000例疾病和2000例对照来自Environment And Genetics in Lung cancer Etiology,EAGLE;另外约850例疾病和850例对照来自于The Prostate,Lung,Colon and Ovary Study Cancer ScreeningTrial.PLCO)进行了系绕的CNV关联分析。在EAGLE和PLCO数据集进行独立CNV关联分析中,可以发现16个独立关联区域在两套数据集中均具有显著性。从基因功能上看,发现EGFR(epidermal growth factor receptor)通路和很多小分子G蛋白基因与肺癌相关。特别重要的是,发现很多显著性位点和重组热点区具有紧密联系,这可能是烟草等环境因素诱发肺癌发生的分子基础。对EAGLE和PLCO数据集进行组合分析进一步证明,重组热点区的CNV可能主要以扩增的方式来影响肺癌的易感性。