论文部分内容阅读
基因拷贝数变异(Copy Number Variations, CNVs)是指在人类基因组中广泛存在的,从1 kb到几Mb范围内的sub-microscopic基因组片断的缺失、重复和复杂多位点的变异。CNVs通过基因破坏和改变基因剂量来影响基因表达、表型差异和表型适应,从而引起疾病。因此,CNVs的突变活动可能是导致常见疾病和散在的先天性缺陷症的主要原因。已经存在许多成熟的并且被广泛使用的CNV分析软件,用来获取芯片数据中原始的CNV和LOH信息。然而到目前为止依然没有出现一个判定数据准确性的金标准,同时也没有对这些CNV分析软件进行过高通量以及多方面的性能评估。为了验证这些CNV分析软件的性能,我们用Birdsuite、CNAG、dChip PennCNV四种软件对同样的样本数据进行分析,并分别产生CNV的检出信息,导入预先架构的Mysql数据库。然后将这些结果与己经获得的同样样本的CGH芯片数据结果通过编程进行快速比对(金标准)。比对从数据的数量和质量两方面相关的几个属性进行,包括(i)CNV总体数量(ⅱ) CNV长度分布(ⅲ) CNV的Gain和Loss分布。然后以CGH结果为参考,从四种软件的检出CNV中分析各自的假阳性率和假阴性率,以统计检出CNV的质量,接着对特异性数据进行深入分析,研究SD序列的影响以及四种软件的互相验证以找到产生对CGH芯片的特异性部分的原因,最后检验软件的鲁棒性即对重复样本的一致性。从统计数据的各个方面来看,Birdsuite和PennCNV的综合能力最高且一致性最好,Birdsuite最保守而且假阳性率最低,但是假阴性率也最高而且与其他三种软件的一致性最差。dChip假阳性率最高,其他能力居中,但最有可能找出de novo的CNV。CNAG比较适合于做群体遗传学分析,Birdsuite和PennCNV更适合于做疾病相关分析,dChip适合于肿瘤相关分析和LOH分析。后续研究通过已经成熟的数据平台,在智力低下(MR)患者和正常人群分组CNV数据中,进行深入的数据挖掘,获得了与MR相关的LOH信息,定位得到了与疾病相关的染色体位置和基因, 随即进入下一步的实验验证。