论文部分内容阅读
网络是一种优良的载体,可以用来表示诸如社会科学、生物科学和信息科学等中的复杂关系。尽管复杂网络研究方法已经取得了一些进展,但是真实世界中的网络十分复杂,仍然难于处理。一个重要问题就是观测到的网络包含噪声。如果在网络构建时不能很好的去除这些噪声,就会误导后续的分析、诱导累计误差。所以从观测到的网络中滤除噪声,找出真实关联信息就是一个亟需解决的重要问题。链式噪声是网络构建中观测到的一种主要噪声。目前只有少数科学家Jones D.T.等给出了模糊的概念:如果点AB和点BC间有真实关联,链式噪声表现为预测出来的网络中AC之间的非真实关联。为了滤除这种链式噪声,科学家研究了一些使用全局优化的算法,比如在蛋白质氨基酸关联网络领域,PSICOV使用求逆后的偏相关矩阵,以及DCA利用波茨物理模型来区分直接关联信息和间接关联信息。除了上述针对特定领域的滤噪方法,网络去卷积算法(ND,Network Deconvolution)利用去卷积的概念直接对链式噪声进行建模并去除噪声,但是该方法并没有精确模拟链式噪声,并存在参数依赖问题。针对现有滤噪方法普遍存在应用场景单一、参数依赖的问题,本文首次从信息学和图论结合的角度,提出了图信息场理论模型,分析了链式噪声的产生机理,给出了链式噪声的明确定义,指出链式噪声是一种由于节点间的非直接路径(经由其他节点的路径)传导的信息产生的一种具有假阳性的噪声;并构建了噪声模型,提出了网络均衡去卷积算法(BND,Balanced Network Deconvolution)滤除链式噪声。均衡是指BND算法构建了均衡的噪声模型,消除了ND模型中的自相关信息,并保持了特征值的均衡分布。同时BND算法使用方便,不需要额外的优化参数。为了验证BND算法滤除链式噪声的能力,我们在三种网络上做了大量实验,包括蛋白质氨基酸关联网络(CASP9,CASP10和PSICOV数据集),基因调控网络(单核真核细胞Saccharomyces cerevisiae和Escherichia coli细菌数据集)和两种社会共作者网络。丰富的实验结果表明BND在三大类网络上的实验都优于存在参数依赖的ND算法,相比于针对特定领域的多种滤噪算法,将BND作为一种后处理过程也会继续提高网络构建质量。总之,没有参数依赖的BND算法可以更好的滤除噪声,达到更高的网络构建质量和更鲁棒的适用性。