论文部分内容阅读
肺癌是世界范围内人类癌症相关死亡的最主要原因,全世界每年新增约200万肺癌患者,约170万肺癌患者死亡。世界范围内肺癌死亡的人数占癌症死亡人数的19%左右,而在中国,这一占比则高达26.4%。肺癌的难治根本原因在于其高度的异质性,包括不同病人之间的异质性和同一个患者肿瘤内部不同细胞之间的异质性。单细胞测序技术的出现让研究人员可以从更高分辨率来研究肺癌的异质性及其在肿瘤发生、进展、转移和耐药中的机制,把生物信号从样本水平精确到细胞水平从而推进肿瘤的精准化的治疗。单细胞数据研究肺癌的首要问题就是细胞身份识别:如何从肺上皮细胞中区分出恶性上皮细胞和正常上皮细胞?目前常用于细胞身份识别方法包括marker基因识别和InferCNV拷贝数变异推断的方法,marker基因方法更多依赖于主观的marker选择,InferCNV推断也需要主观选择参照和阈值,并且要耗费大量的计算资源与时间。为了快速准确地识别恶性肺上皮细胞和正常肺上皮细胞,本文主要研究工作如下:(1)从多个高通量数据库广泛收集肺癌块状组织转录组测序、单细胞转录组测序和细胞系转录组数据。排除掉样本分布不平衡,数据质量有问题的样本,最终收集块状组织转录组测序样本1683个,单细胞测序样本700个共计包含细胞数量467453个。(2)对收集到的数据进行预处理,块状组织测序样本主要进行FPKM标准化处理。单细胞测序样本标准化以后进行降维聚类,根据上皮细胞表达的marker基因从所有细胞中提取上皮细胞制作上皮细胞表达矩阵,最终收集上皮细胞共计106,109个。(3)采用基因表达的绝对秩序替换原有的表达值。构建一维残差神经网络,建立可跨平台识别肺恶性上皮细胞和肺正常上皮细胞的分类模型CNcatch。CNcatch在训练1小时结束后在验证集中得到的最高准确率为95.97%,在测试集1中得到的准确率为96.23%。(4)在测试集2中,CNcatch应用于不同测序平台的肺癌细胞系数据时准确率达到100%,应用于非肺癌的数据时CNcatch准确率也达到100%。将CNcatch应用于没有金标准的单细胞肺癌数据时,通过正常上皮细胞特异高表达的marker基因证明该方法可以在大量癌细胞中识别出少数可靠的正常上皮细胞。通过差异表达基因分析和通路活性评价两个方面证明CNcatch的结果和InferCNV相比在生物学上更具有合理性。在耗时方面,CNcatch平均花费的时间仅为InferCNV的5%。综上所述,本文构建的模型CNcatch可以帮助研究人员更高效和准确地跨越不同测序平台识别肺癌恶性上皮细胞和正常上皮细胞,不需要主观的定义marker基因,相比于常用的InferCNV方法更快且更具有合理性,为进一步探索肺癌发生、发展的细胞学机制奠定了基础。