论文部分内容阅读
精准医疗是治疗癌症的必然趋势。如何从庞大的数据中挖掘关键信息,根据遗传信息等特性预测抗癌药物的治疗效果或毒副作用,及时为患者提供最合适的治疗方案,是精准医疗的意义所在。实际上,抗癌药物敏感性数据(通过实验检测的细胞系药物药理学反应数据)往往有空缺元素、大的误差甚至是损毁等现象,使得数据在分析处理时难度加大。聚焦上述问题,本文基于癌症药物敏感性基因组学(GDSC)和癌细胞系百科全书(CCLE)两大经典数据库,建立矩阵填充、岭回归以及矩阵填充—岭回归加权预测模型,对抗癌药物的敏感性进行有效预测,为抗癌药物的筛选提供理论依据。首先综合考虑药物敏感性数据之间的关系,将抗癌药物敏感性预测问题转化为矩阵填充问题,建立矩阵填充预测模型。采用OptSpace算法,结合十折交叉验证方法,通过计算预测值与观测值之间的皮尔森相关系数确定模型的最优参数。矩阵填充模型取得了很好的预测效果,结果均高于流行的“细胞系网络模型”、“药物网络模型”和“细胞系—药物双层网络模型(即细胞系网络模型和药物网络模型的加权组合)”。基于假设“基因表达谱与药物敏感性数据之间存在线性关系”,论文接下来将基因的表达谱数据作为输入特征,建立单个药物岭回归模型,借助十折交叉验证和皮尔森相关系数筛选出与药物敏感性相关较强的标志物基因(233~12535个),大大降低了数据的维度。虽然模型预测结果低于“药物网络模型”和“细胞系—药物双层网络模型”,但却优于“细胞系网络模型”。此外,每种药物选取岭回归模型的前1000个回归系数较大的基因做了David基因功能在线分析。最后,结合矩阵填充和岭回归结果建立了矩阵填充—岭回归加权模型,实现两者的优势互补,预测效果尤为突出:至少83%的药物,其预测值与观测值之间的皮尔森相关系数要高于“细胞系—药物双层网络模型”。由此可见,矩阵填充—岭回归加权模型可以作为抗癌药物敏感性预测的可选择工具之一。