论文部分内容阅读
近年来,研究能够符合实际的精确的网络理论已经成为多个学科研究的前沿问题之一。复杂网络由于区别于以前广泛研究的规则网络和随机网络而被认为是描述真实系统最适宜的网络,如万维网、因特网、交通网络、社会关系网络和生物网络等等。随之而来关于复杂网络的拓扑性质、模型建立、网络划分、稳定性(容错能力)、动力学行为等方面的研究也逐渐深入。本文主要探索某些复杂网络的深层次信息,主要研究内容和结果如下:
·网络的社团结构探测问题。通俗地讲,网络中节点关系稠密的结构称之为社团。社团结构是指网络可以被划分为若干个社团,社团内部的节点连边比较紧密,但社团之间连边相对稀疏。网络的社团结构划分以及如何寻找合适的网络社团结构是一个复杂的过程,也是复杂网络研究的重要问题之一。针对传统的社团结构探测问题,我们提出了一种线性投影方法将社团结构探测问题转化成一个经典的聚类问题,并在实际数据集和模拟数据集上都得到了很好的验证。另外,从我们的结果可以得到社团结构其实是复杂网络一个非常鲁棒的性质,只要投影的方法合理,即使将原有的数据投影到一个维数很低的欧氏空间时,社团结构仍然可以得到保持;另外,针对具有先验标号信息的社团结构探测问题,我们成功地推广了Newman等人提出的混合概率模型,使之能够有效的解决半监督的社团结构探测问题。
·基于网络构建寻找致病基因及蛋白质复合物的问题。首先根据疾病相似性数据、蛋白质相互作用数据及疾病和致病基因的关联关系数据,构建疾病--基因关联网络。基于该双层网络,我们提出了一种基于半监督学习的方法DgaInfer,通过直接在双层网络上进行打分函数的更新,最后得到了更可靠的全局打分函数。DgaInfer在测试集上的表现比已知最好的方法PRINCE还要好,能够将接近45%的致病基因在留一交叉验证的实验中排到第一,并且参数的选择对DgaInfer最后的结果影响并不大。DgaInfer同时也是一个快速算法,能在30秒以内对所有疾病的候选致病基因排序。而且基于Dgainfer所得到的所有疾病和所有基因之间的打分函数,我们提出了一种寻找疾病与基因之间“模块”与“模块”的对应关系的贪婪算法。