论文部分内容阅读
基因调控网络作为推断基因间相互调控关系的网络模型,是目前生物信息学中一个十分重要的课题。随着基因芯片技术的快速发展,使得利用高通量的基因表达数据来推断基因调控网络成为可能。通过基因调控网络,可以分析基因之间的相互调控关系,发现基因的功能,并对致病基因进行预测。这些信息对复杂疾病的诊断、个性化治疗方案的制定以及针对性药物的研究都有着十分重要的影响。目前有许多用于推断基因调控网络的数学模型,其中基于信息论推断基因调控网络是目前一个重要的课题。这一类方法通过计算基因之间的互信息,能够准确、有效地衡量基因之间的非线性关系,并且能够针对连续型数据进行计算。然而这一类方法存在两个问题,首先,目前普遍使用的核密度估计方法虽然能够对连续型数据的互信息进行估计,但是需要假设数据服从高斯分布,而对于未知分布的连续型数据,这种方法不能很好地适用;其次,互信息过高估计了基因之间的相互关系,因此在推断基因调控网络时会出现很多假阳性边,使得推断出的网络准确性较低。本文从以上两个问题出发,首先使用k最近邻估计方法,对连续型数据的信息熵与互信息进行估计,其好处在于能够针对未知分布的连续型数据。由于这一方法对参数的选取较为敏感,因此本文设计实验并对参数的选取进行了研究。其次,使用逻辑关系衡量基因之间的相互关系。逻辑关系最早用于离散型数据,因此本文将逻辑关系推广到连续的情况,通过计算不确定性系数,从另一个角度衡量了基因之间的相互关系,消除了部分因使用互信息而过高估计出现的假阳性边。通过结合k最近邻估计方法与逻辑关系各自的优点,本文可以在未知分布规律的连续型数据下推断基因调控网络。为验证本文的方法,使用目前被广泛用于验证方法准确性的DREAM 3 Challenge的数据分别对节点规模为10,50和100的网络进行推断,并与基于互信息推断基因调控网络的经典算法ARACNE以及NARROMI进行比较,结果显示在节点规模为10的情况下,由于样本量较少,使用本文方法对互信息进行估计时会产生一定的误差,因此结果不如以上两个经典算法。而当节点规模为50和100时,本文的方法在假阳性率,MCC指标以及F值上都优于以上两个算法,这也说明了本文的方法能够删去部分因互信息过高估计出现的假阳性边。因此得出结论,本文的方法需要一定的样本量下才能对未知分布规律的基因调控网络进行较为准确的推断。