论文部分内容阅读
生物信息学是一门结合计算机科学技术、数学、物理学和生物学的交叉科学,用于分析和解释生物数据,能够为生物医学等不同领域提供解决方案。目前关于生物信息学的研究主要集中于对获取的高通量数据(其中包括基因组测序和基因表达模式数据获取等)的分析方面。 在医学领域,尤其是癌症检测领域,识别负责癌症扩散的驱动路径是生物信息学的一个重要研究方向。 基于这个原因,分析和解释当细胞自我复制时,细胞分裂过程中发生的DNA体细胞突变是非常重要的。 最近,人们已经将相当多的注意力集中在寻找导致肿瘤发生的驱动突变与在癌症扩散中不起任何作用的乘客突变之间的区别方面。为此,有必要测试突变的生物学功能以决定它是驱动突变还是乘客突变。基于频率的方法通常使用单个基因来测试,这些方法需要关于路径的先验知识,这些方法可以找到突变的基因和无需任何先验路径的路径。 对于基于频率的方法,测试单个基因以确定其观察到的突变频率是否显著高于预期。尽管这项技术在检测肿瘤相关基因方面表现出了很高的效率,但也面临着一些困难,例如确定每个基因的背景突变率(Background Mutation Rate, BMR)并不是一件容易的事。一些科学家认为,有必要使用一些先验的基因相互作用网络,该方法的主要目标是确定基因具有统计学意义上重要的互斥突变的子网。然而,上述这些方法的一个重要缺陷是必须要有关于通路或基因/蛋白质相互作用的先前知识,这限制了突变基因的新组合的发现。因此,提出新的方法是必不可少的,例如,最大权重子矩阵问题,不需要任何预先知识就可以检测更多的基因集和驱动通路。 本文提出一种解决最大权重子矩阵问题的新方法。为此,我们引入了一个名为“近似排他性”的新约束条件,它有助于准确确定每个患者在通路中具有的突变数量。根据这个约束,我们提出了一种检测驱动突变通路的精确算法。首先我们给出了算法的详细描述,然后我们将结果与其他方法(例如,遗传算法和二元线性规划模型)得到的结果进行比较。我们的算法在最大化权重和检测所有可能的驱动程序路径方面表现出了良好的性能。