论文部分内容阅读
背景:乳腺癌是全球女性癌症死亡的主要原因,其在组织、细胞和分子水平上的多重时空异质是癌症转移发展、治疗耐受和预后复发的主要原因,也是当前临床肿瘤诊疗的持续主要障碍。进行精准的疾病亚型分类和患者风险分层及预后评估是克服肿瘤异质挑战、实现乳腺癌临床管理和治疗决策的关键措施。近年来,大量基于分子表达模式或特征的风险亚型特异/固有基因、多基因panel及预后因子/标签的鉴定研究,为传统TNM癌症分期系统整合相关生物因子与基因表达预后panel奠定了良好的基础。不过,由于多组学研究视野的缺乏,以及组织活检样本非连续性取样所造成的缺陷,这些研究仍难以实现肿瘤动态与异质变化的有效表征和患者风险预后的精准评估。令人兴奋地,以循环肿瘤细胞、循环肿瘤DNA和肿瘤来源的外泌体为代表的液体活检为克服上述问题提供了良好的新策略手段。肿瘤外泌体更是以其丰富的数量和稳定内含物独具优势。不过,直到目前,基于肿瘤外泌体的乳腺癌风险分层、预后评估及肿瘤异质剖析的综合性研究还未有效开启。为此,本研究在我们之前ExoBCD(一个乳腺癌外泌体标志物发现数据库,https://exobcd.liumwei.org)研究基础上,基于生物标志物稳健分析策略(Robust Corroborative Analysis for Biomarker Discovery,RCABD),通过对已发表研究、公共数据集的重新收集与鉴定,进行关键外泌体生存分子筛选和风险标签(Exosome-derived Risk Signature,exoSIG)构建,并深入探讨exoSIG风险分层患者基因组、转录组、肿瘤微环境和药物响应等多维异质特征。最终实现乳腺癌外泌体分子多组学知识库ExoBCD 2.0构建,促进标志物的深入探索。方法:(1)基于多组学和多信息网络的乳腺癌外泌体标志物发现:我们通过搜集已知的乳腺癌外泌体公共数据库资源和文献报道对乳腺癌外泌体中的mRNA、miRNA、lncRNA、蛋白和脂质分别进行了高通量数据的筛选和基于文献及生物学功能的稳健性验证,构建了标准的乳腺癌外泌体标志物筛选流程,为标志物的有效筛选提供了参考范例。(2)基于机器学习的乳腺癌外泌体风险模型构建与生物异质综合分析:我们通过机器学习模型获得与患者生存相关性最强的分子并用于构建exoSIG风险标签。接下来,通过多维系统性的分析进一步探讨了不同exoSIG风险患者间的临床特征差异、基因组变化、转录组生物学功能改变、肿瘤微环境景观和药物响应异质性。最后,考虑到临床应用的实用性,通过基于赤池信息准则的逐步Cox回归并联合患者的年龄和分期,构建了临床最简 exoSIG(Clinical Minimized exoSIG,Clinmin-exoSIG),并在额外的数据集中进行了验证。(3)基于开源框架的乳腺癌外泌体分子多组学综合知识整合:我们整合了经过上述标准化筛选流程获得的多组学乳腺癌外泌体相关分子及标志物,基于LAMP(Linux+Apache2+MySQL+PHP7)环境,并通过 Drupal 8 管理框架对ExoBCD知识库进行了更新,实现了 ExoBCD 2.0知识库构建。结果:(1)外泌体风险分层标签建立结果:通过对53篇乳腺癌外泌体相关文献和7个数据集的挖掘及分析,我们获得了 34个与患者生存相关的外泌体分子。基于LASSO回归和多变量Cox模型构建,我们进一步建立了乳腺癌患者10分子exoSIG风险分层标签,是一种新型的乳腺癌预后指标(Cox P=9.9E-04,HR=3.3,95%CI 1.6 to 6.8)。结合患者年龄与肿瘤分期信息,该指标中与肿瘤转移密切相关的分子HLA-DQB2和COL17A1可形成便于临床使用的双分子风险标签Clinmin-exoSIG,其在 TCGA 发现集(Log-rank P=0.0027)、TCGA内部测试集(Log-rankP=0.0036)和Caldas 2007独立验证集(Log-rank P=0.028)中均具有较好的预后预测效果。(2)患者风险分层异质性解析结果:高的exoSIG分数的患者具有更高的生存风险,相比于低exoSIG分数患者,其免疫浸润水平更低、突变和拷贝数变化更加明显,且缺氧状况更加严重并对大多数化疗靶向药物具有更高的耐药性。(3)ExoBCD 2.0构建结果:目前数据库收录了 6582个外泌体相关分子,434个潜在的标志物和34个与患者生存直接相关的外泌体分子。另外还囊括了 39092条与其相关的基因组位置、核酸序列、突变与拷贝数变化、甲基化、外泌体与组织表达、功能富集、miRNA-mRNA关联、lncRNA-miRNA关联、lncRNA-蛋白关联、蛋白-蛋白关联、转录因子调控关联、药物靶向情况、疾病-基因关联、生存、免疫细胞关联等丰富的知识信息。相比于ExoBCD,ExoBCD 2.0新增加了蛋白组和脂质组的外泌体分子,分子数量扩大了 21.50倍,外部注释引用扩大了 1.80倍,总注释信息扩大了 1.87倍。结论:作为ExoBCD的持续深入研究,本研究以多组学视野开启乳腺肿瘤外泌体预后分子标签、多分子panel鉴定及患者风险分层的系统性研究,为“肿瘤异质-风险分层-预后预测”关系探索和深入理解提供了范式参考。