论文部分内容阅读
二十世纪,生命科学技术的迅猛发展,无论从数量上还是从质量上,都极大地丰富了生物科学的数据资源。正是有了这大量的数据,我们才可以对基因的转录表达有个更深刻的认识,才能去更好的理解复杂的生物学问题。转录因子,对真核生物的生长发育有着举足轻重的作用,因为所有的基因在表达时都要受到转录因子的调控,而这些调控大多不是一个转录因子可以独立完成的,需要其他转录因子的协作形成蛋白质复合物来共同完成对基因的转录控制。
我们提出了一种新的基于序列的方法来预测转录因子的相互作用,并利用了转录因子在基因上的结合位点的距离,方向和相位等基因组序列的信息。由于贝叶斯网络可以处理不完整数据和带有噪声的数据集,它用概率测度的权重来描述数据间的相关性从而解决了数据间的不一致性,甚至是相互独立的问题,以及用图形的方法来描述数据问的相互关系,语义清晰且可理解性强,这有助于利用数据间的因果关系进行预测分析。因此,我们用贝叶斯网络来描述这一模型的。
我们利用实验已经证明过的酵母菌的芯片数据来实现或验证这一思想的,并且获得了165对有相互作用的转录因子对。通过与SGD数据库中的蛋白质-蛋白质相互作用的数据进行比较,可以达到约95﹪的正确率。我们还利用预测的结果对基因组上存在的一些特征进行了讨论,例如,相互作用的转录因子对(TFS)对距离,方向,相位有一定的倾向性。希望我们的预测和相互作用的转录因子对的特征有助于更好的理解真核生物的转录控制网络。