论文部分内容阅读
生物信息学是一门关于生物学数据处理的学科,它将病理研究建立在精确的数据分析和模型构建的基础上,能够推动未来的疾病预测、预防、个性化、系统化等方面的发展,对生物医学产生深远的影响。基因调控网络是生物网络中的一种类型,也是后基因组信息学的主要研究内容之一,它是根据生物信息学的技术和方法以数据分析、建模和推断等方式所研究出的复杂的网络关系。传统的基因调控网络重构方法有布尔网络模型、互信息关联模型、微分方程模型、贝叶斯模型等,在对这几种常见方法的理解与掌握的基础上,本研究提出了一种新颖的基因调控网络重构方法——Hilbert-Schmidt独立性准则(Hilbert-SchmidtIndependence Criterion--HSIC)。HSIC方法通过在再生核希尔伯特空间上构造协方差算子,并以数学的方式推导出协方差算子与独立性、条件独立性的关系,然后以此来辨识基因间的结构关系。它不依赖生物先验知识,并且约束条件少,既不要求数据符合某种特定的分布也无需对数据做线性或者椭圆性等假设,是一种非参数的方法,这使得HSIC方法具有良好的推广性。由于计算手段的限制,统计学利用相关性来描述变量间的关联度,但基因调控网络的本质是基因间相互作用的因果关系,因此无法用相关性来真正辨识基因之间的结构关系。统计独立性比数据拟合度、相关性、模型简单性等指标更接近于对因果关系的描述,通过在再生核希尔伯特空间中定义一个统计量把对原空间统计特性描述的维数扩展到无穷维,这样可以更精确地描述变量间的独立性关系。充分降维方法是根据条件独立性理论提出的一种有监督的学习方法,该方法将寻找有效子空间的思想转化为一个优化问题,并推断出两种优化的度量方法,即行列式法和trace法。本研究通过仿真实验证明这两种度量方法在降维方面均具有良好的可行性与可靠性,说明该方法作为统计独立性的推广性应用能在实际生活中充分发挥作用。同时为了更全面地呈现HSIC方法的结构辨识能力,本研究将HSIC方法应用于DREAM项目中具有不同数据特点的三个挑战: DREAM2Challenge5、 DREAM4Challenge2和DREAM3Challenge4,其中DREAM2Challenge5作为稳态数据的代表,DREAM4Challenge2作为时间序列数据的代表,DREAM3Challenge4作为稳态与时间序列融合数据的代表,而选择DREAM项目作为研究对象是因为该项目的目的是通过研究细胞网络领域中实验结果与理论推断之间的关系来评价在生物学系统中所建立的模型的好坏。在各个挑战中HSIC方法分别与经典的基因调控网络建模方法进行比较,结果证明HSIC方法在辨识准确率以及计算效率上都有一定的优势,从而更完整地验证了HSIC具有良好的基因网络重构能力。