论文部分内容阅读
数据缺失为大数据的分析带来诸多不便,矩阵填充作为处理缺失数据的重要手段已成为大数据分析的一个重要研究课题。现今,肿瘤已经严重威胁人类健康,是致死的重要元凶之一。由于肿瘤的异质性,在患者用药前进行临床试验,测量肿瘤细胞系对于抗肿瘤药物的敏感性试验是选择适合癌症患者药物的常规手段。然而,由于药物敏感性试验经常受到实验条件、实验设备、实验材料等的干扰与限制,使得获取的药物敏感性数据经常存在缺失。本文根据生物学数据的特性,首先构造计算模型挖掘生物学数据中癌细胞系的相似性以及抗肿瘤药物的相似性等关联信息;然后将这些信息融合到已有的矩阵填充模型提出了一个新的低秩矩阵填充模型;根据模型给出了相关的数学的证明和模型实现的具体算法;应用该模型到抗肿瘤药物敏感性数据库的两组具体数据,预测它们的缺失数据。最后利用10倍交叉验证法和均方根误差评估该模型的填充效果。本文所得结果与已有模型填充效果比较显示本文的模型能有效的提高预测的效果。