论文部分内容阅读
随着生命科学领域技术的飞速发展,尤其是测序技术的发展,使得生物医学数据呈现出急剧膨胀的态势。生物医学数据不但数据量巨大,而且具有高维度的特点,特征数量远大于观测量(样本量)的情况非常普遍。因此,这些数据的出现不仅为研究人员带来了新的机遇,更带来了新的挑战。如何挖掘出海量数据的关系链成为了研究工作的重点所在。特征选择指的是从原始数据中选择出一个子集代表原始数据的特征,精心设计的特征选择方法使得这些特征能够用于后续的数据挖掘工作。毫不夸张地说,特征选择之于数据挖掘便如同黄沙取金,几乎任何一个完整的数据挖掘工作都避不开这个步骤。所以,本文以特征选择技术作为突破点,以两个重要生物医学问题作为载体,对高维生物医学数据相关的生物信息学研究方法进行了探索。通过本研究,我们将从多个层面提出不同的特征提取策略,并进一步研究这些策略在实际生物医学问题中的表征效果与预测能力。本文中发展的特征选择方法和结果能够为高维生物医学数据的处理与分析提供重要参考。特征选择主要出现在机器学习和统计学领域,指的是从大量变量中筛选出密切相关变量用于模型构建。特征选择有三个主要优势:简化模型使之更加易于理解、缩短模型训练时间以及通过减少过拟合来增加模型泛化能力。在实际的研究问题中,变量集合中的大部分变量相对研究问题是属于冗余信息,删除它们并不会导致信息量的丢失。所以,对于处理海量高维生物医学数据,特征选择便是不可缺少的一步。正如14世纪的哲学家Willian所提出的“奥卡姆剃刀”定律:如无必要,勿增实体。可以说,特征筛选,简化模型乃是海量数据处理的灵魂所在。因此,特征选择对于海量生物医学数据的处理是极为关键的一步,也是本文的出发点所在。目前来说,特征选择主要有两类方法,一类是利用数据本身的拓扑结构、统计学信号进行筛选,而另一类则是引入外部知识,例如一些特定领域的背景知识。本文使用TCGA (The Cancer Genome Atlas)数据库中的数据综合尝试了这两种方法,用于预测肿瘤预后表现的研究。首先,在利用数据本身拓扑结构方面,我们重点关注肝细胞癌的基因和微小RNA诊断标志物的筛选和发现。在一个网络中,度相对较高的节点称为“集线器(Hub)”,我们在结合生存分析技术并研究预后生存率相关分子的拓扑特性后发现,这些Hub节点中与肝癌预后生存相关的基因更为富集,表明复杂分子网络中的这些Hub节点更倾向作为判断肝癌预后表现的潜在特征,即分子标志物。其次,在引入领域内知识方面,我们重点关注多种肿瘤化疗干预后药物反应的预测。肿瘤化疗失败的主要原因常常是由于机体内发生肿瘤多药耐受(Multiple Drug Resistance, MDR)。耐药性是一个相对复杂的过程,通常是由于过度表达耐药基因编码的相关蛋白,通过能量依赖性洗脱泵的作用将化疗药物泵出胞外,从而减弱化疗药物在细胞内的聚集作用,导致了机体的耐药发生。为此,我们以基因突变为暴露因素,肿瘤耐药为暴露结果,利用相对风险率(Relative Risk, RR)和统计显著性P-value联合筛选,得到八种肿瘤的耐药相关的突变基因作为预后预测模型的特征集。利用该特征集,我们分别使用三种机器学习方法对八类肿瘤样本的耐药性进行预测,表现良好。尤其是在头颈鳞癌(Head and Neck Squamous Cell Carcinoma,HNSC)中 ROC 曲线下面积(Area Under the Curve,AUC)能够达到0.980,表明能够经过领域内知识进行特征筛选后的模型可以很好地区分药物干预以后发生耐药的患者和药物敏感的患者,为帮助患者选择合适的治疗方式提供重要参考。除药物干预之外,越来越多的研究表明,通过饮食干预也是调节人体健康的重要手段,因此,除研究肿瘤治疗预后之外,我们还尝试基于PubMed数据库的海量文本数据对潜在的对人体健康有益的碳水化合物(又称为益生元)进行预测。我们从PubMed数据库中下载15例已知益生元的所有研究文献,并对其进行特征抽取,用该特征集对待预测碳水化合物进行建模分析,计算出潜在的益生元名称列表,这个挖掘方法不仅能够为其他数据挖掘学者提供参考,预测出的潜在益生元亦可为研究益生元的学者们提供一个重要参考清单。随着生物医学领域大数据大幕的拉开,数据挖掘显得愈发重要。数据挖掘方法有助于从系统水平理解生命,是研究生命科学的重要方法,特征选择则是数据挖掘的灵魂。在此基础上,我们将在以后的研究中考虑整合文本数据、生物表达数据进行模拟和分析,为最终改善人类的健康做一些有意义的尝试。