基于机器学习的肺癌单细胞转录组数据研究

来源 :南京中医药大学 | 被引量 : 0次 | 上传用户:qfcyzf2573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是世界范围内人类癌症相关死亡的最主要原因,全世界每年新增约200万肺癌患者,约170万肺癌患者死亡。世界范围内肺癌死亡的人数占癌症死亡人数的19%左右,而在中国,这一占比则高达26.4%。肺癌的难治根本原因在于其高度的异质性,包括不同病人之间的异质性和同一个患者肿瘤内部不同细胞之间的异质性。单细胞测序技术的出现让研究人员可以从更高分辨率来研究肺癌的异质性及其在肿瘤发生、进展、转移和耐药中的机制,把生物信号从样本水平精确到细胞水平从而推进肿瘤的精准化的治疗。单细胞数据研究肺癌的首要问题就是细胞身份识别:如何从肺上皮细胞中区分出恶性上皮细胞和正常上皮细胞?目前常用于细胞身份识别方法包括marker基因识别和InferCNV拷贝数变异推断的方法,marker基因方法更多依赖于主观的marker选择,InferCNV推断也需要主观选择参照和阈值,并且要耗费大量的计算资源与时间。为了快速准确地识别恶性肺上皮细胞和正常肺上皮细胞,本文主要研究工作如下:(1)从多个高通量数据库广泛收集肺癌块状组织转录组测序、单细胞转录组测序和细胞系转录组数据。排除掉样本分布不平衡,数据质量有问题的样本,最终收集块状组织转录组测序样本1683个,单细胞测序样本700个共计包含细胞数量467453个。(2)对收集到的数据进行预处理,块状组织测序样本主要进行FPKM标准化处理。单细胞测序样本标准化以后进行降维聚类,根据上皮细胞表达的marker基因从所有细胞中提取上皮细胞制作上皮细胞表达矩阵,最终收集上皮细胞共计106,109个。(3)采用基因表达的绝对秩序替换原有的表达值。构建一维残差神经网络,建立可跨平台识别肺恶性上皮细胞和肺正常上皮细胞的分类模型CNcatch。CNcatch在训练1小时结束后在验证集中得到的最高准确率为95.97%,在测试集1中得到的准确率为96.23%。(4)在测试集2中,CNcatch应用于不同测序平台的肺癌细胞系数据时准确率达到100%,应用于非肺癌的数据时CNcatch准确率也达到100%。将CNcatch应用于没有金标准的单细胞肺癌数据时,通过正常上皮细胞特异高表达的marker基因证明该方法可以在大量癌细胞中识别出少数可靠的正常上皮细胞。通过差异表达基因分析和通路活性评价两个方面证明CNcatch的结果和InferCNV相比在生物学上更具有合理性。在耗时方面,CNcatch平均花费的时间仅为InferCNV的5%。综上所述,本文构建的模型CNcatch可以帮助研究人员更高效和准确地跨越不同测序平台识别肺癌恶性上皮细胞和正常上皮细胞,不需要主观的定义marker基因,相比于常用的InferCNV方法更快且更具有合理性,为进一步探索肺癌发生、发展的细胞学机制奠定了基础。
其他文献
学位
学位
学位
研究目的:本研究基于中西医结合研究方式,探究中药猪脬膜(urinary bladder matrix,UBM)修复皮肤损伤创面的现代医学作用机制,并与胶原蛋白真皮替代支架(PELNAC,PEL)进行对比,为中药“血肉有情之品”的药用价值增加新的科学论证,促进中医动物药的发展。研究方法:材料实验:(1)扫描电镜观察UBM及PEL的微观结构;(2)含尿素的缓冲液浸泡提取支架可溶性成分后进行SDS-PA
学位
学位
学位
学位
<正>2021年9月15日,江苏省丰县市场监督管理局邀请徐州市中级人民法院、徐州市市场监督管理局有关领导,江苏极易新材料有限公司等39家高新技术企业及徐州市、丰县、沛县市场监督管理局共50余名核心岗位人员开展商业秘密保护专题宣讲。徐州市中级人民法院法官根据近年来商业秘密案例的司法实践,通过"商业秘密保护的相关法律规定、处理相关商业秘密保护案件的思路、做好涉密人员的保密协议"等五个方面,从相关法律法
期刊
近年来,网络直播带货风靡全国,2020年新冠疫情带来的经济压力更是把网络直播带货推向了热潮,形成了“万物可直播,人人齐带货”的空前盛况。直播带货是对传统网络销售模式和网络直播的突破,消费者可以通过带货主播真听、真看、真感受实时了解产品的性能,极大的提升了消费者购物体验。然而,直播带货行业频频爆出的数据造假、虚假宣传、售后维权难和带货主播偷逃税款等问题让消费者唏嘘不已,直播带货行业的发展令人堪忧。本
学位
学位