论文部分内容阅读
新一代高通量生物测序技术的飞速发展使得当前各类生物测序成本急剧下降,产生了海量生物测序数据。这为通过计算技术全面、准确地挖掘揭示相关生物学知识提供了丰富的数据资源。由于生物系统的复杂性,各类生命活动的完成往往涉及多个层次或多种类型相关生物分子元件之间的协同调控作用。传统基于单源生物数据对相关生物学知识进行挖掘与分析的方法已难以满足人们对复杂生命系统进行全面理解和认识的现实需求。近年来,随着各类生物测序数据的不断丰富,融合多源生物数据挖掘揭示复杂生命活动相关生物学知识已成为当前生物信息学领域研究热点之一。本文以融合多源生物数据揭示与理解疾病相关生物学机理为研究出发点,针对当前生物信息学领域相关研究热点问题,分别从基于多源生物数据的生物网络分析与挖掘、癌症亚型类预测和基因转录后RNA可变剪切调控关系预测三个方面对相应数据融合模型与挖掘技术展开了深入研究。主要内容及贡献包括:(1)针对现有静态蛋白质交互网络不能真实反应蛋白质交互作用时空特性的问题,提出了一种融合多源生物数据构建动态蛋白质交互网络的新方法,并在此基础上提出了一种新的蛋白质复合物和功能模块挖掘方法(CBMI和HFMD算法)。通过融合蛋白质交互网络、时序基因表达数据以及蛋白质亚细胞定位数据,构建了动态蛋白质交互网络;并从动态角度对蛋白质复合物和功能模块的生物学功能与网络结构进行了区别和有效挖掘。实验表明,CBMI算法具有更高的蛋白质复合物识别准确率,HFMD算法能够识别更具生物意义的蛋白质功能模块。(2)针对传统模块挖掘方法在融合多源生物数据的异构生物网络中无法准确识别混合调控模块的问题,提出了一种基于二元异构生物网络的混合调控模块挖掘方法(d HMR)。该方法考虑了异构生物网络中不同类型节点间交互关系的不同分布,提出了一种基于随机网络生成模型的统计预测算法对网络中交互边的模块属性进行判断,最终将混合调控模块识别问题转化为网络划分问题。实验表明,所提方法具有较高的混合调控模块识别准确率。(3)针对现有癌症亚型类预测方法准确度不理想的问题,提出了三种基于不同生物数据类型融合模式的癌症亚型类预测方法。针对现有融合多组学数据的癌症亚型类预测方法存在样本相似性预测不准确和缺乏考虑各数据源贡献权重的问题,提出了一种基于样本相似性回归的预测方法(SRF)。该方法对各数据源视角上的样本相似性进行重新预测,并对其贡献权重进行综合考虑,实现对癌症亚型类的准确预测。针对现有多组学数据融合方法缺乏考虑各数据源中数据特征之间调控关系的问题,提出了一种融合多组学数据和异构生物调控网络的癌症亚型类预测方法(CSPRV)。该方法从异构生物调控网络中提取反映复杂调控关系的多维特征实现对癌症亚型类的准确预测。针对多源生物数据融合中存在数据高维特征挑战和背景噪音影响问题,提出了一种基于深度学习模型的层次结构数据融合方法(HI-SAE)。该方法采用无监督自编码器神经网络学习不同数据源中高维特征的低维特征表示并实现多数据特征的融合,完成对癌症亚型类的准确预测。基于不同类型癌症数据集上的实验表明,所提各方法能够预测更具临床意义的癌症亚型类。(4)针对现有方法不能准确预测基因转录后RNA可变剪切调控相关关系的问题,提出了一种基于可变剪切事件读段数目数据的可变剪切调控相关关系预测方法(RMAS2)。考虑到可变剪切水平的预测受到样本测序深度影响,存在一定不确定性的问题,RMAS2方法直接基于可变剪切事件相应读段数目数据,结合可变剪切因子表达数据对可变剪切调控相关关系进行预测。实验表明,所提方法在RNA可变剪切调控相关关系预测方面具有更好的预测准确性和鲁棒性。综上所述,本文针对融合多源生物数据的生物网络分析与挖掘、癌症亚型类预测以及基因转录后RNA可变剪切调控关系预测问题进行了较为系统的研究,提出了一系列针对相应生物信息学应用问题的数据融合模型与挖掘方法,并通过实验证实了它们的有效性,为未来融合多源生物数据更加深入地研究疾病相关调控机理提供了研究基础和技术支持。