论文部分内容阅读
随着生物测序技术的不断进步,基因表达数据呈爆炸式增长,海量数据的出现为基因调控网络的构建提供了可能。详细深入地研究基因调控网络不仅能够帮助人类揭示各种疾病的发病机理,而且有助于人类探索生命的内部本质。因此,从数据中挖掘出基因调控网络信息已经成为生物信息学研究的热点和重点。当前存在多种模型对基因调控网络进行构建,其中基于信息论的方法能有效衡量基因间的非线性关系并具有计算简单等特性,已成为构建基因网络强有力的方法。本文以时序基因表达数据和静态基因表达数据为研究对象,对基于信息论的基因调控网络进行建模,以提高预测准确度为最终目标,设计有效而合理的推断算法,具体工作包括以下几个方面:针对基因间的协同调控作用,使用时序基因表达数据,提出了一种基于信息论准则的协同调控动态性的研究算法。该算法分为三步:首先,确定基因间的调控时延,计算出互信息矩阵。其次,使用每个互信息值作为阈值,建立模型,并使用MDL打分函数对所有模型打分,选出分值最低的模型。再次,精简模型步骤;与传统的信息论方法不同的是,该算法融合了数据处理不平衡及条件互信息,以处理迁移效应和分散效应的影响;同时,通过存储条件互信息值有效地克服了因条件互信息值偏低所导致协同调控作用被误删的缺陷。该算法在IRMA数据集和酵母细胞数据集上的实验表明,它能够有效推断出基因间的协同调控现象,更符合生物意义。针对静态基因表达数据集不能确定方向性的缺陷,提出了一种信息熵与微分方程模型相结合的通路一致性构建方法。该算法融合了微分方程模型和信息论思想的优势,主要分为因果模型选择和优化过程两个阶段。因果模型阶段使用改进的通路一致算法,利用通路一致算法在计算上具有高效性的优势,克服了它在计算高阶条件互信息时出现的误差值以及输入次序不同而引起的推断结果差异性缺陷。在优化阶段,为了克服信息熵方法不能确定方向的缺陷,采用微分方程模型构建最终拓扑图。采用这种策略,既降低了微分方程模型的搜索空间,又确定了基因间的调控方向。使用DREAM数据集对该算法进行实验,实验表明该方法有很好的预测效果。