多源生物数据融合与挖掘关键技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:wapp592
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代高通量生物测序技术的飞速发展使得当前各类生物测序成本急剧下降,产生了海量生物测序数据。这为通过计算技术全面、准确地挖掘揭示相关生物学知识提供了丰富的数据资源。由于生物系统的复杂性,各类生命活动的完成往往涉及多个层次或多种类型相关生物分子元件之间的协同调控作用。传统基于单源生物数据对相关生物学知识进行挖掘与分析的方法已难以满足人们对复杂生命系统进行全面理解和认识的现实需求。近年来,随着各类生物测序数据的不断丰富,融合多源生物数据挖掘揭示复杂生命活动相关生物学知识已成为当前生物信息学领域研究热点之一。本文以融合多源生物数据揭示与理解疾病相关生物学机理为研究出发点,针对当前生物信息学领域相关研究热点问题,分别从基于多源生物数据的生物网络分析与挖掘、癌症亚型类预测和基因转录后RNA可变剪切调控关系预测三个方面对相应数据融合模型与挖掘技术展开了深入研究。主要内容及贡献包括:(1)针对现有静态蛋白质交互网络不能真实反应蛋白质交互作用时空特性的问题,提出了一种融合多源生物数据构建动态蛋白质交互网络的新方法,并在此基础上提出了一种新的蛋白质复合物和功能模块挖掘方法(CBMI和HFMD算法)。通过融合蛋白质交互网络、时序基因表达数据以及蛋白质亚细胞定位数据,构建了动态蛋白质交互网络;并从动态角度对蛋白质复合物和功能模块的生物学功能与网络结构进行了区别和有效挖掘。实验表明,CBMI算法具有更高的蛋白质复合物识别准确率,HFMD算法能够识别更具生物意义的蛋白质功能模块。(2)针对传统模块挖掘方法在融合多源生物数据的异构生物网络中无法准确识别混合调控模块的问题,提出了一种基于二元异构生物网络的混合调控模块挖掘方法(d HMR)。该方法考虑了异构生物网络中不同类型节点间交互关系的不同分布,提出了一种基于随机网络生成模型的统计预测算法对网络中交互边的模块属性进行判断,最终将混合调控模块识别问题转化为网络划分问题。实验表明,所提方法具有较高的混合调控模块识别准确率。(3)针对现有癌症亚型类预测方法准确度不理想的问题,提出了三种基于不同生物数据类型融合模式的癌症亚型类预测方法。针对现有融合多组学数据的癌症亚型类预测方法存在样本相似性预测不准确和缺乏考虑各数据源贡献权重的问题,提出了一种基于样本相似性回归的预测方法(SRF)。该方法对各数据源视角上的样本相似性进行重新预测,并对其贡献权重进行综合考虑,实现对癌症亚型类的准确预测。针对现有多组学数据融合方法缺乏考虑各数据源中数据特征之间调控关系的问题,提出了一种融合多组学数据和异构生物调控网络的癌症亚型类预测方法(CSPRV)。该方法从异构生物调控网络中提取反映复杂调控关系的多维特征实现对癌症亚型类的准确预测。针对多源生物数据融合中存在数据高维特征挑战和背景噪音影响问题,提出了一种基于深度学习模型的层次结构数据融合方法(HI-SAE)。该方法采用无监督自编码器神经网络学习不同数据源中高维特征的低维特征表示并实现多数据特征的融合,完成对癌症亚型类的准确预测。基于不同类型癌症数据集上的实验表明,所提各方法能够预测更具临床意义的癌症亚型类。(4)针对现有方法不能准确预测基因转录后RNA可变剪切调控相关关系的问题,提出了一种基于可变剪切事件读段数目数据的可变剪切调控相关关系预测方法(RMAS2)。考虑到可变剪切水平的预测受到样本测序深度影响,存在一定不确定性的问题,RMAS2方法直接基于可变剪切事件相应读段数目数据,结合可变剪切因子表达数据对可变剪切调控相关关系进行预测。实验表明,所提方法在RNA可变剪切调控相关关系预测方面具有更好的预测准确性和鲁棒性。综上所述,本文针对融合多源生物数据的生物网络分析与挖掘、癌症亚型类预测以及基因转录后RNA可变剪切调控关系预测问题进行了较为系统的研究,提出了一系列针对相应生物信息学应用问题的数据融合模型与挖掘方法,并通过实验证实了它们的有效性,为未来融合多源生物数据更加深入地研究疾病相关调控机理提供了研究基础和技术支持。
其他文献
近年来随着计算机视觉技术的发展,人脸识别凭借高识别准确率、高鲁棒性已成功应用到各种权限系统中,例如智能手机解锁、支付宝移动支付等。与此同时,人脸识别系统也存在着一定的安全隐患,尤其在将系统使用者的人脸图像、人脸视频以及人脸面具置于识别系统面前时,人脸识别系统同样会将其识别为使用者本人,导致权限系统被入侵。这类通过虚假人脸攻击入侵人脸识别系统的行为给系统使用者的信息、财产带来了巨大的安全威胁,严重制
激光立体成形技术可快速、无模具且全致密近净成形的制造结构或外形复杂的零件,目前该技术已能制造多种精密复杂的实用构件,并逐步应用于飞机发动机及飞机大型承力结构。目前针对激光立体成形TC4钛合金的研究重点集中在制造工艺参数和静态力学性能等方面,缺乏动态力学性能及破坏机理的研究。因此,研究激光立体成形TC4钛合金的动态剪切力学行为具有重要的理论意义和实用价值。为研究激光立体成形TC4钛合金的动态剪切力学
学位
正电子发射断层(Positron Emission Tomography,PET)成像是现代生物医学成像领域中最高层次的成像技术之一,它可以无损伤地在分子水平观察生物体内代谢物的活动及生理变化,在生物医学研究以及临床诊断等领域具有广泛用途。PET成像系统由辐射探测器、前端读出电路和图像重建三部分组成,其中,前端读出是用作对成像所用探测器的输出微弱信号进行低噪声放大处理和量化。随着PET成像探测器的
SiC MOSFET器件的集成化、高频化和高效化需求,对功率模块封装形式和工艺提出了更高的要求。本文中总结了近年来封装形式的结构优化和技术创新,包括键合式功率模块的金属键合线长度、宽度和并联数量对寄生电感的影响,直接覆铜(DBC)的陶瓷基板中陶瓷层的面积和高度对寄生电容的影响,以及采用叠层换流技术优化寄生参数等成果;综述了双面散热结构的缓冲层厚度和形状对散热指标和应力与形变的影响;汇总了功率模块常
在可靠性理论及应用研究中,应力强度模型是一种应用广泛且极为重要的模型,对该模型的研究是可靠性领域的重要课题之一.但已有的研究主要针对单部件或简单系统进行,对于多部件复杂系统应力强度模型可靠性分析的研究很少见到.本文研究多部件复杂冷贮备系统、单调关联系统、多状态系统应力强度模型以及单调关联系统动态应力强度模型的可靠性分析.主要内容及创新点如下:(1)在强度和应力均服从广义半逻辑分布的情形下,研究了一
学位
边界元方法是求解工程与科学问题的常用数值分析方法之一,相对于有限元方法而言,其主要优点在于只对求解区域的边界进行剖分,使得问题的维数降低了一维。边界离散的优点使边界元法很适合模拟具有复杂边界或者界面的结构,如多孔或随机多孔材料。然而,边界元法形成的系数矩阵通常是非对称的满阵,常规求解技术效率低下,使得边界元法不能有效处理大规模问题。而基于核函数解析展开的边界元快速算法,虽然将边界元方法求解的计算量
学位