多模态生物数据分析与挖掘研究

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:azsxdcfvgb0987654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物测量技术的飞速发展,在生命科学研究的不同领域都积累了大量的生物数据。这些数据中蕴藏着丰富信息,使得我们从不同角度全方位地了解与疾病或是特定表型相关的生物学过程成为可能。然而,目前将这些蕴含在数据中的丰富信息转化为生物学知识的速度却远远比不上数据的积累速度。一个重要的原因是有效数据挖掘算法的缺乏。生物数据存在一些特点,比如高维度,小样本,多模态等,直接应用传统的数据挖掘算法会导致维数灾难、过拟合等问题。因此,如何针对特定的生物问题开发适于其数据特点的算法成为加速生物数据中信息转换为生物知识的重要手段。本文将就癌症和脑科学,这两大生物研究热点领域中的一些具体问题,开发针对特定生物学问题和适用于多模态数据特点的挖掘算法。来帮助揭示复杂疾病和认知行为背后的生物学机制,具体如下:1.提出了一种利用microRNA(miRNA)表达数据对多癌症共有的miRNA调控模块进行挖掘的算法,旨在探究miRNA是如何通过相互协作调控一些癌症共有特征的发生发展的。MiRNA是一种非编码小RNA,其已被证实同癌症发生发展紧密相关的。同时,不同类型的癌症虽有各有不同的特点但也具有一些共同的特征,对于miRNA是否参与调控不同癌症共有特征的发生发展过程,我们却知之甚少。因此,我们提出一种利用miRNA表达数据挖掘多癌症共有失调miRNA模块的算法。利用我们的算法对12种不同癌症的miRNA表达谱进行整合分析挖掘,我们得到了217个多癌症共有的miRNA失调模块。进一步通过对这些模块进行排序并对排名前两名的模块进行功能分析,我们发现这两个模块都可调控细胞周期这一生物过程,进而调控两大癌症共有特征:持续的增长信号以及对抗生长信号不敏感。2.提出了一种可用于精神疾病影像学研究的疾病/症状双色网络模型,旨在探究和精神疾病患病相关的神经回路是如何影响患者症状表达的。现有精神疾病相关神经影像研究中确定的在患者组和对照组之间存在显著差异的特征往往同患者的症状打分不直接相关,对于疾病相关神经回路是如何影响患者的症状表达的,我们知之甚少。为解决这一问题,我们提出了一种新颖的疾病/症状双色网络模型来探究:与患病风险相关的影像指标,与患者症状相关的影像指标以及患者症状间的关系。在首发精神分裂患者中我们发现症状相关脑功能网络可介导患病风险相关脑功能网络和症状之间的关系,为精神分裂症的症病理学研究提供了全新视角。3.提出一种整合脑科学多模态数据的表型预测方法,旨在探究特定表型不同层面的生物基础并为其提供客观的预测模型。不同模态的数据中蕴藏着相关又互补的信息,可提供对特定认知过程全方位的描述,如何整合不同模态的数据对特定表型进行机制探究与预测是脑科学研究当前的热点话题。我们提出了一种基于”交叉验证”的整合多模态数据的表型预测方法,一方面,是因为通过基于”交叉验证”方法得到的特征已被证实相比基于传统“相关分析”方法得到的特征具有更好的泛化能力;另一方面,我们可为特定表型提供不受主观因素影响的更加客观的预测模型。我们将该方法应用于个体图形创造力的研究中,不仅确定了图形创造力可能的神经和遗传基础,而且利用我们的多模态数据预测模型,我们对新个体创造力预测的准确率可到达78.4%。4.提出了对不同形式神经影像学研究结果进行功能和遗传注释的一系列方法,并以此为基础构建了基于Matlab的神经影像学研究结果注释工具箱。旨在利用已有的多模态脑科学生物知识为神经影像学研究结果提供可靠的功能和遗传注释,进而帮助对其进行生物学解释。非侵入性神经影像学使得在体研究认知和疾病的神经机制成为可能,传统对神经影像学研究结果的解释往往是基于人工文献搜索,然而单一研究通常样本量较小且具有较高的错误发现率,并不能为神经影像学研究结果提供可靠的生物学解释。目前并没有利用大型公开知识数据库对神经影像学研究结果进行注释的工具箱。为此,我们受生物信息学领域已被广泛使用的基因富集分析的启发,利用现有的大型体素级别脑功能和遗传知识数据库,开发了一系列统计方法为不同形式的神经影像学研究结果提供可靠的功能和遗传注释。进一步,通过对现有常用脑区模板以及真实疾病神经影像学研究结果进行注释,证实了我们提出的统计方法以及构建的神经影像学研究结果注释工具箱的高可靠性和广泛的用途。
其他文献
研究了随机可靠性试验数据的处理方法与软件。完成了3项任务: 第一,根据可靠性寿命截尾试验原理,用待测随机变量代替时间参量,拓展可靠性寿命截尾试验的组织方法与数据处理方
随着现代计算机技术的普及和发展,计算机的使用越来越深入到人们的日常生活中。人类与计算机进行交流时,最直接和方便的方式就是语言交流,所以语音识别和语音合成技术已成了
为了解决由于分布和异构带来的“孤岛”问题,OMG组织提出了公共对象请求代理体系结构(CORBA),以增强软件系统间的互操作能力,实现企业内各信息系统的有效集成。随着Internet
随着Internet的发展,网络丰富的信息资源给用户带来了极大的方便,但同时也给上网用户带来了安全问题。目前,网络的攻击手段越来越多,入侵手段也不断更新。由于网络的攻击造成
近年来,分布式数据库的应用变得更加广泛,但分布式数据库中的多连接查询优化问题却没有得到很好的解决。随着分布式数据库的规模不断增大,多连接查询优化问题越来越深地影响着数
近年来,会话初始化协议(session initiation protocol,简称SIP)在通信和网络研究领域受到极大关注,是下一代网络(NGN)中的核心协议之一。SIP是工作在应用层上的一个信令协议,可以
RFID技术是一种无需接触的自动识别技术,因其技术特点和良好的应用前景,自上世纪90年代出现以来发展迅猛,已在物流、制造业中广泛应用。与传统的条形码需要进行手动不同,RFID标签
近年来,数据挖掘引起了信息产业界的极大关注,主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以用于多种领域,包
群体智能以分布性、简单性、灵活性和鲁棒性得到了越来越广泛的关注。蚁群聚类算法是数据挖掘算法的一种,它起源于科学家对群体性昆虫的观察和研究。Lumer和Faieta将Deneubou
无线网络的发展随着计算机和网络技术的不断更新也得到了长足进步,越来越多的用户使用笔记本电脑或膝上式计算机工作,商业用户由于经常性地往来于各个城市之间更需要移动办公