论文部分内容阅读
拷贝数变异CNV(Copy Number Variation)是指1kb以上的DNA片段的增加或者减少。CNV是基因组结构变异的重要组成部分,是人类疾病的重要致病因素之一。Recurrent CNA (RCNA)是与某种疾病有关的,存在于绝大多数样本相同染色体区域的一段连续的拷贝数变异,它与肿瘤、癌症等疾病有着重要的关系,识别RCNA对于疾病的研究有着重要的意义。目前已经有很多算法用于RCNA的识别,这些算法各有优缺点,但仍然没有一个算法能够准确的识别出各种情形的RCNA。CMDS算法是一个有效查找RCNA的算法,它根据相邻两列数据的相关性对数据进行打分,根据每一列的得分,判断出RCNA的位置。CMDS算法计算量小,效率较高,统计特性强,但是它不能识别出变异是增益还是缺失,对于变异程度较敏感,容易受到一些随机变异的拷贝数的影响。本文首先对拷贝数进行了数据仿真,对CMDS算法的优缺点进行了分析,提出了一种基于聚类的RCNA识别算法。该算法首先对数据进行了预处理,接着运用聚类算法对数据聚类,根据聚类的结果对每一列进行打分,最后根据得分判断出RCNA的位置。本文还针对CMDS算法的不足进行了改进,称为CMDS_s算法。在仿真数据上,针对各种情形的RCNA分别用CMDS算法、CMDS_s算法和本文算法进行了对比实验。实验结果表明,本文算法的性能优于CMDS算法,也优于CMDS_s算法,但是在某些特殊情况下,CMDS_s算法具有一定的优势。