论文部分内容阅读
随着科学技术的日益进步带动着生物信息技术快速发展,生物信息领域正经历着一场数据革命。生物数据的快速增长使得生物学家很难快速而准确地利用有效数据,因此如何快速地在大规模数据中识别出有效的信息成为突破数据瓶颈的关键技术。然而在后基因组生物学中,大量的生物数据都或多或少存在着相互作用关系,而这些作用关系可以通过关联网络的形式表现出来。因此如何在保持生物含义的基础上充分挖掘现有大规模生物网络信息显得尤为重要。针对生物信息领域多个生物网络融合划分的问题,目前国内外专家学者研究的比较少。有别于一般的网络,大规模生物网络集合中的若干生物网络之间存在着相互关联关系,因此在进行网络融合划分的过程中不可以割裂网络之间的关联关系。另一方面,由于现有的生物网络的数据规模较大,因此如何有效地在保持大规模生物网络中各个网络之间的关联关系的基础上对生物网络进行有效地降维成为至关重要的难点。本文针对生物网络数据规模巨大和网络间关联关系复杂等特点,设计了一种基于半监督稀疏自编码器的多网络融合聚类框架模型。多网络融合聚类框架是一个以稀疏自编码器(SAE)和半监督稀疏自编码器(semi SAE)为单元而构成的DNN结构迭代模型。其中DNN结构框架的第一层为稀疏自编码器,主要用于约束条件的提取,而从第二层开始则为半监督稀疏自编码器,其输入数据主要包括稀疏矩阵和约束条件等。在整个迭代框架中网络数据的维度在不断的降低,并且通过传递的约束条件的限制使多个生物网络在不断的趋于靠拢,从而在尽可能保持网络间关联关系的基础上降低网络数据的维度。多网络融合框架的核心为半监督稀疏自编码器,其主要功能为学习输入网络的新低纬度的表示并提取约束条件作为下一层的输入。对于输入的约束条件,semi SAE通过将约束条件作用于损失函数上来不断的修正重构的数据,从而得到一个融合上一层其他网络的先验知识的新的低纬度数据表示。对于最终得到的多个新的融合先验知识的低纬度的网络,采用Clusterer Ensemble方式得到最终的融合网络并采用K-Means算法进行聚类,从而得到最终的多网络融合划分的结果。为了验证本文所提出的多网络融合聚类框架和半监督稀疏自编码器,采用拟南芥在九种不同环境压力下所表现出来的性状表达数据来构建九种基因组转录表达网络来对算法进行验证。并采用矩阵相似度、轮廓系数、GO和KEGG Pathway富集分析来分别对于网络融合过程和最终的聚类结果进行评价。本文的实验结果证明了多网络融合聚类框架算法以及半监督稀疏自编码器在融入先验约束条件的基础上学习网络特征以及对网络进行降维的优越性。