论文部分内容阅读
近年来,随着生物测量技术的飞速发展,在生命科学研究的不同领域都积累了大量的生物数据。这些数据中蕴藏着丰富信息,使得我们从不同角度全方位地了解与疾病或是特定表型相关的生物学过程成为可能。然而,目前将这些蕴含在数据中的丰富信息转化为生物学知识的速度却远远比不上数据的积累速度。一个重要的原因是有效数据挖掘算法的缺乏。生物数据存在一些特点,比如高维度,小样本,多模态等,直接应用传统的数据挖掘算法会导致维数灾难、过拟合等问题。因此,如何针对特定的生物问题开发适于其数据特点的算法成为加速生物数据中信息转换为生物知识的重要手段。本文将就癌症和脑科学,这两大生物研究热点领域中的一些具体问题,开发针对特定生物学问题和适用于多模态数据特点的挖掘算法。来帮助揭示复杂疾病和认知行为背后的生物学机制,具体如下:1.提出了一种利用microRNA(miRNA)表达数据对多癌症共有的miRNA调控模块进行挖掘的算法,旨在探究miRNA是如何通过相互协作调控一些癌症共有特征的发生发展的。MiRNA是一种非编码小RNA,其已被证实同癌症发生发展紧密相关的。同时,不同类型的癌症虽有各有不同的特点但也具有一些共同的特征,对于miRNA是否参与调控不同癌症共有特征的发生发展过程,我们却知之甚少。因此,我们提出一种利用miRNA表达数据挖掘多癌症共有失调miRNA模块的算法。利用我们的算法对12种不同癌症的miRNA表达谱进行整合分析挖掘,我们得到了217个多癌症共有的miRNA失调模块。进一步通过对这些模块进行排序并对排名前两名的模块进行功能分析,我们发现这两个模块都可调控细胞周期这一生物过程,进而调控两大癌症共有特征:持续的增长信号以及对抗生长信号不敏感。2.提出了一种可用于精神疾病影像学研究的疾病/症状双色网络模型,旨在探究和精神疾病患病相关的神经回路是如何影响患者症状表达的。现有精神疾病相关神经影像研究中确定的在患者组和对照组之间存在显著差异的特征往往同患者的症状打分不直接相关,对于疾病相关神经回路是如何影响患者的症状表达的,我们知之甚少。为解决这一问题,我们提出了一种新颖的疾病/症状双色网络模型来探究:与患病风险相关的影像指标,与患者症状相关的影像指标以及患者症状间的关系。在首发精神分裂患者中我们发现症状相关脑功能网络可介导患病风险相关脑功能网络和症状之间的关系,为精神分裂症的症病理学研究提供了全新视角。3.提出一种整合脑科学多模态数据的表型预测方法,旨在探究特定表型不同层面的生物基础并为其提供客观的预测模型。不同模态的数据中蕴藏着相关又互补的信息,可提供对特定认知过程全方位的描述,如何整合不同模态的数据对特定表型进行机制探究与预测是脑科学研究当前的热点话题。我们提出了一种基于”交叉验证”的整合多模态数据的表型预测方法,一方面,是因为通过基于”交叉验证”方法得到的特征已被证实相比基于传统“相关分析”方法得到的特征具有更好的泛化能力;另一方面,我们可为特定表型提供不受主观因素影响的更加客观的预测模型。我们将该方法应用于个体图形创造力的研究中,不仅确定了图形创造力可能的神经和遗传基础,而且利用我们的多模态数据预测模型,我们对新个体创造力预测的准确率可到达78.4%。4.提出了对不同形式神经影像学研究结果进行功能和遗传注释的一系列方法,并以此为基础构建了基于Matlab的神经影像学研究结果注释工具箱。旨在利用已有的多模态脑科学生物知识为神经影像学研究结果提供可靠的功能和遗传注释,进而帮助对其进行生物学解释。非侵入性神经影像学使得在体研究认知和疾病的神经机制成为可能,传统对神经影像学研究结果的解释往往是基于人工文献搜索,然而单一研究通常样本量较小且具有较高的错误发现率,并不能为神经影像学研究结果提供可靠的生物学解释。目前并没有利用大型公开知识数据库对神经影像学研究结果进行注释的工具箱。为此,我们受生物信息学领域已被广泛使用的基因富集分析的启发,利用现有的大型体素级别脑功能和遗传知识数据库,开发了一系列统计方法为不同形式的神经影像学研究结果提供可靠的功能和遗传注释。进一步,通过对现有常用脑区模板以及真实疾病神经影像学研究结果进行注释,证实了我们提出的统计方法以及构建的神经影像学研究结果注释工具箱的高可靠性和广泛的用途。