论文部分内容阅读
生物医学领域中经常需要研究变量间的影响关系,例如,基因关联的因果关系问题。本文基于再生核希尔伯特空间独立性、条件独立性理论,研究基因变量的调控关系。与一些传统的方法相比,独立性和条件独立性更适合于因果性关系的描述,比如用来描述基因的本质调控关系。通过在再生核希尔伯特空间(Reproducing Kernel Hilbert Space--RKHS)中定义类欧式空间的统计量,把对原空间统计特性描述的维数扩展到无穷维,从而可以对分布做更精确的定量描述,例如在RKHS中定义的协方差算子可以用来描述独立性和条件独立性。它是一种基于分布的统计独立性度量方法,适合于关系复杂,数据维数高而样本点少和高噪声的生物医学数据;它也是一种非参数的方法,不要求数据符合某种特殊的分布,有比较好的适应性;另外,核方法能带来计算上的高效性。对于协方差算子的度量问题,本文着重介绍了一种标准的度量方法,即Hilbert-Schmidt范数度量方法,该方法是一种基于RKHS上算子特征谱的度量方法。根据此度量方法可得到独立性和条件独立性的判别准则。特别地,在使用基于Hilbert-Schmidt范数的统计独立性度量准则(HSIC)进行独立性检验时,可以利用独立性假设下的近似分布--Gamma分布,与普通的Monte Carlo重采样法相比能极大地提高计算效率。在对该问题进行仿真实验表明,HSIC方法能很好地检测出独立性或非独立性的关系。使用Gamma分布进行检验的结果与permutation检验的结果很吻合,说明在独立性假设下Gamma分布对原分布的近似效果很好,并且它的参数可以直接从样本数据中估计出来,无需像permutation检验那样做大量随机实验来获取分布数据。对于时间序列数据的因果性推断问题,本文在独立性和条件独立性理论下对Granger因果性方法进行了扩展,使其能适用于非线性的情况,给出了时间序列数据因果性推断方法。对于大样本的问题,给出了基于Subsampling的检验方法,该方法能显著地降低整体的计算量,并且能提高检验的可靠性。另外,还给出了更一般意义下的系统辨识问题的算法步骤,并对算法进行了实验测试。最后,使用HSIC方法对Dialogue for Reverse Engineering Assessments and Methods第3次竞赛项目(DREAM3)中的基因调控网络问题的数据进行了计算,结果显示HSIC方法在计算准确性上和计算效率上都有较好的表现。DREAM3中的大肠杆菌(E.coli)基因调控网络结构辨识问题具有关系复杂(基因连接成网络化)、数据维数高而样本点少、高噪声等生物系统辨识问题的普遍特点。对大肠杆菌三种数据规模下的实验结果显示,尽管数据集中的时间序列数据样本很小,并且只提供了较弱的和类型复杂的调控信息,HSIC方法仍能较好地辨识出这种较为隐含且复杂的调控关系。采用HSIC方法辨识结果的AUROC值高于GrangerCausality方法23个百分点,高于参与此竞赛的第一名3.9个百分点。另外,HSIC方法在计算效率上高出微分方程方法3个数量级。