论文部分内容阅读
肝细胞癌(Hepatocellular carcinoma,HCC)是全球最普遍的恶性肿瘤之一,并且是在过去几年中观察到发病率持续上升的少数癌症之一。全世界有数亿人患有这种复杂疾病及其并发症,且目前尚无有效的治疗方法。生活方式和遗传因素的长期相互作用会导致肝细胞癌,但其发病机理仍未得到充分证实。肝癌早期诊断困难和预后不良的一个非常重要的原因就是肝癌发生和发展的具体机制尚不清楚。已报道的研究大多数集中于肝癌组织中单个差异表达基因的功能及其参与的信号通路的调控,然而在肝癌发生发展的自然病程中,复杂的基因调控网络的变化绝不仅仅局限于此。分子生物标志物是特定生物学状况(例如正常或疾病状态)的分子指示剂,通常用于预测疾病的诊断结果、治疗的风险评估以及对预后的治疗评估。鉴于早期发现肝癌可显著提高生存率,能够找到在临床上早期诊断肝癌的准确分子生物标志物就显得尤为重要。基因表达谱分析技术以并行方式测量数千个基因的转录情况,越来越多的肝癌转录组数据已被公开获取,可用的高通量转录组数据集为发现肝癌生物标志物提供了前所未有的机会。本论文提出了一种基于动态差异网络熵的生物信息计算方法,通过对人类多阶段肝癌组织的转录组数据、蛋白质-蛋白质相互作用数据和信号通路数据进行整合分析,从而识别潜在的肝癌发生发展过程的通路生物标志物。论文首先收集到不同数据库中记录的已有信号通路,其次收集整理得到肝癌发生发展过程中的转录组数据,并将上述通路基因集与肝癌不同阶段样本中相应的基因表达分别进行匹配,利用蛋白质-蛋白质相互作用对其连接成网络。然后通过定义通路的网络熵,来评估其在肝癌发生发展过程中与功能相关的活动和影响,并找出在癌症发生发展过程中动态网络熵的差异。论文利用在时间序列数据中,信号通路的熵动力学的总体差异显著性对所有的通路进行排序,从而得出具有差异网络熵的通路。随后通过机器学习分类方法,筛选出对肝癌发生发展进程具有分类能力的通路生物标志物。对于所得到的通路标志物,验证了其在独立数据集上的分类性能,进一步证明了这些识别出的通路生物标志物的诊断适用性。同时,对于这些通路生物标志物的功能富集分析和已有研究文献中肝癌基因的整理和分析,验证了所得到的通路标志物在肝癌发生发展过程中的重要功能意义。另外,对于本文筛选所得到的通路标志物在独立数据集上的分类性能也进一步验证了结果的诊断适用性。