论文部分内容阅读
癌症驱动模块对癌症精准医疗和个性化医疗的重要性,使癌症驱动模块识别问题成为生物信息学的研究热点。对该问题的研究方法主要分为两大类:一类是从头识别方法,另一类是基于先验知识的识别方法。本文主要利用第二类方法对识别问题进行研究,针对组学数据噪声多、不完整、单一组学数据信息有限等特征,通过蛋白质相互作用网络整合多组学数据信息以提高数据的完整性和准确性,提出基于网络模型的癌症驱动模块识别方法,主要工作如下:
利用体细胞突变、亚细胞定位和蛋白质相互作用网络三种数据,对(1)R R?种癌症的公共驱动模块识别问题进行研究。将模块连通性、互斥性、覆盖度和模块内基因间跳数作为模块优化目标,提出一种癌症公共驱动模块识别模型,进而提出求解该模型的识别方法IDM-SPS。该方法利用亚细胞定位数据对蛋白质相互作用网络降噪,调整网络拓扑结构,降低噪声数据对识别产生负面影响的可能性,利用体细胞突变数据加权网络的边,并基于包含五个新颖变异算子的遗传算法来求解模型。在真实生物数据集和模拟数据集上对算法IDM-SPS、Hotnet2和MEXCOwalk进行了实验对比分析。实验结果表明,IDM-SPS方法在大多数情况下对公共驱动模块的识别上要优于另外两种算法。
利用体细胞突变、基因表达和蛋白质相互作用网络三种数据,对(1)R R?种癌症的特异驱动模块识别问题进行研究。通过重启随机游走算法分别对基于体细胞突变数据和基因表达数据的加权网络进行处理,以得到融合的加权网络。基于该加权网络提出一种癌症特异驱动模块识别问题模型,识别出在不同癌症样本间具有差异性的模块。进而提出基于贪婪策略的扩展算法ISM-SPG对该模型进行求解。在真实生物数据集上对算法DAMOKLE和ISM-SPG进行实验比较分析。实验结果表明,ISM-SPG方法识别出的特异模块在大部分情况下比DAMOKLE识别的效果要更好,在不同癌症样本间具有更大的差异性。而且,相较于DAMOKLE方法只能识别体细胞数据上的差异,ISM-SPG方法能识别出在不同癌症样本间的具有基因表达量差异性的模块,这有助于更好的分析癌症间的特异性。
综上所述,本文对癌症驱动模块识别问题进行研究,提出了两种基于网络模型的癌症驱动模块识别模型和算法,这些方法可能成为检测癌症驱动模块的有用补充工具。
利用体细胞突变、亚细胞定位和蛋白质相互作用网络三种数据,对(1)R R?种癌症的公共驱动模块识别问题进行研究。将模块连通性、互斥性、覆盖度和模块内基因间跳数作为模块优化目标,提出一种癌症公共驱动模块识别模型,进而提出求解该模型的识别方法IDM-SPS。该方法利用亚细胞定位数据对蛋白质相互作用网络降噪,调整网络拓扑结构,降低噪声数据对识别产生负面影响的可能性,利用体细胞突变数据加权网络的边,并基于包含五个新颖变异算子的遗传算法来求解模型。在真实生物数据集和模拟数据集上对算法IDM-SPS、Hotnet2和MEXCOwalk进行了实验对比分析。实验结果表明,IDM-SPS方法在大多数情况下对公共驱动模块的识别上要优于另外两种算法。
利用体细胞突变、基因表达和蛋白质相互作用网络三种数据,对(1)R R?种癌症的特异驱动模块识别问题进行研究。通过重启随机游走算法分别对基于体细胞突变数据和基因表达数据的加权网络进行处理,以得到融合的加权网络。基于该加权网络提出一种癌症特异驱动模块识别问题模型,识别出在不同癌症样本间具有差异性的模块。进而提出基于贪婪策略的扩展算法ISM-SPG对该模型进行求解。在真实生物数据集上对算法DAMOKLE和ISM-SPG进行实验比较分析。实验结果表明,ISM-SPG方法识别出的特异模块在大部分情况下比DAMOKLE识别的效果要更好,在不同癌症样本间具有更大的差异性。而且,相较于DAMOKLE方法只能识别体细胞数据上的差异,ISM-SPG方法能识别出在不同癌症样本间的具有基因表达量差异性的模块,这有助于更好的分析癌症间的特异性。
综上所述,本文对癌症驱动模块识别问题进行研究,提出了两种基于网络模型的癌症驱动模块识别模型和算法,这些方法可能成为检测癌症驱动模块的有用补充工具。