论文部分内容阅读
癌症的起源与发展实际上是肿瘤与肿瘤微环境之间不断动态串扰,相互作用的一个演变过程。肿瘤微环境主要由上皮组织、基质组织等组成,而这些组织间同时又分布着各式各样的细胞,比如肿瘤细胞、基质细胞以及不同的免疫细胞。全景病理切片图像上可以提供丰富的肿瘤微环境信息,临床上许多观察已经表明病理图像上不同组织与细胞的空间特征对多种癌症的诊断和预后有重要价值。影像基因组学作为近年来的研究热点之一,将基于图像的组织与细胞特征与生物信息学和生态统计相结合,探索癌症是如何在健康组织中进化与传播的,从而引导临床上治疗癌症的新策略。目前临床上对于病理图像的评估与分析主要由病理医生手动完成,比较耗时、枯燥,而且可能带来人工误差。同时,由于图像自动分析系统的匮乏,对于更进一步分析肿瘤微环境在具体不同癌症亚型中的异质性,以及这些差异背后的分子调控机理的研究依然存在较大局限性,有待进一步探索。本文将机器学习中的图像分析技术与生物统计分析相结合,对不同乳腺癌亚型中的肿瘤微环境进行量化,并探索这些量化特征与基因数据和预后之间的关系。以下分三个方面介绍本文内容:(1)基于深度CNN模型的乳腺癌全景病理组织分割与量化。上皮组织和基质组织是乳腺癌病理切片上最基本也是最常见的两类组织。我们提出了一套基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的全景病理切片图像(Whole-slide image,WSI)处理系统,来实现对病理图像上上皮组织(Epithelial tissue)与基质组织(Stromaltissue)的分割与量化。本系统模拟临床上病理专家对病理图像的分析流程,包含三个步骤:(1)感兴趣区域(Regionof Interest,ROI)识别;(2)对ROI内不同病理组织区域进行分割;(3)病理组织的整体量化与评估。我们先在带标注的瓦片图像集上对DCNN模型进行训练,然后将训练好的模型应用到1,000张全景病理图像上进行组织分割。最后,根据分割结果分别计算每张全景图像上上皮组织与基质组织占总的组织面积的比例。(2)基于级联训练U-net模型的乳腺癌全自动免疫评估。免疫治疗是近10年来肿瘤诊疗中新兴且前景远大的靶标,肿瘤浸润性淋巴细胞(Tumor-infiltrating lymphocytes,TIL)是H&E染色的病理切片上可以观察到的一类免疫细胞,也是当前免疫相关的研究热点之一。我们设计了一个基于级联训练的U-net模型来实现对病理图像上TIL的全自动检测。根据检测结果,我们进一步提取了 43条TIL的空间量化特征,这些特征主要衡量全景病理图像上免疫热点的分布情况,包括热点数量、组间散度和组内散度等。(3)不同乳腺癌亚型中病理图像特征与多组学数据整合分析。我们先将所有的乳腺癌病人分成三类亚型,分别为ER-positive,ER-negtiave和Triple negative,然后分别对每类亚型展开影像基因组学分析。(1)通过统计关联分析与基因富集分析(Enrichment Analysis)探索了基因表达与上皮和基质组织之间的关系。实验结果表明,对同一种病理组织而言,其在三类乳腺癌亚型上都会受到相似生物进程(Biological Processes)的影响;同时每一类乳腺癌亚型又都有其特质的生物进程在调节不同组织的发展。(2)通过生物统计学技术以及Cox回归预测模型,系统分析了 TIL图像特征与基因表达、体细胞变异和病人预后之间的关联。我们发现,ER-positive和ER-negative的乳腺癌免疫表型受到相似生物进程的调控,但Triple negative的免疫表型却有其非常独特的分子调控机理。另外,我们还发现TIL在图像上呈现出的聚类散度特征(Clustering Dispersion Pattern)既与免疫相关的基因表达相关,又与病人预后相关,这说明临床上在进行免疫评估时应对病人病理切片上TIL的聚集模式给予更多关注。本文中的发现将有望为临床上免疫评估与治疗提供新的启发。