论文部分内容阅读
乳腺癌是一种遗传和临床特征高度异质性的疾病,同一种治疗方法在不同乳腺癌患者中所产生的疗效往往不尽相同。目前,有几种被广泛接受的乳腺癌分型方法,比如:基于形态特征的组织病理学分类、基于免疫组化检测的ER、PR和HER2三种蛋白的表达状态等等。不同亚型中基因表达模式的差异与总生存期和无病生存期等临床特征的变化紧密相关,并且能够很好地反映出肿瘤细胞生物学层面的改变。基于以上问题及方法,本文在肿瘤分子分型和相关数据分析方面开展了一系列研究工作,主要内容如下:(1)设计了一种基于体细胞突变数据对乳腺癌患者进行分型的方法。针对癌症基因组图谱项目中的乳腺癌患者全外显子组测序数据,首先使用CADD算法将每个基因突变对生物学功能的影响进行评分,并通过特征选择的方法抽提出一部分突变基因的集合。然后,基于这些突变基因以及相应的CADD打分,使用非负矩阵分解将全部样本划分为三类,进一步评估了这三个类别与患者处于早期或晚期的关联。实验结果表明,所筛选特征在肿瘤患者的临床分类方面具有更加显著的区分效果。(2)为了帮助研究人员使用更多的组学数据进行肿瘤标记物识别和可视化分析,本文开发了一个用于对乳腺癌患者组学信息进行系统展示的数据分析与可视化平台。通过对分析加工后的乳腺癌临床以及高通量测序的多组学数据建立数据库模型,平台提供了针对单个基因的检索功能和各类数据集的筛选功能,实时进行转录组和拷贝数变异数据的分析,同时还可以展示小RNA、KEGG生物学通路以及基因功能网络三类数据。综上,本文不仅基于体细胞突变信息对单个组学数据的应用方面进行了积极尝试,还针对于多组学数据构建了一个集数据整合、分析和可视化于一体的软件平台,为乳腺癌的分子分型和标记物识别提供了一个重要的工具,有助于乳腺癌的预防和治疗,定制个性化的治疗措施,以处理不同样本之间的肿瘤异质性。