基于深度学习的蛋白质串联质谱数据分析

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:z492141756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于质谱的蛋白质定量技术是目前研究癌症的重要手段,但是质谱数据分析能力,尤其是鉴定能力的不足限制了其发展。目前蛋白质质谱数据非常缺乏有效的分析方法,虽然现有的鉴定工具有很多种,但是谱图的鉴定率并不是很高,对蛋白质质谱数据进行有效的分析还需要大量的探索。如果可以将深度学习方法用于蛋白质质谱数据的分类与识别并针对其流程进行优化,这将为今后的研究人员分析蛋白质质谱数据提供帮助和参考。癌症的研究往往关注疾病样本与健康样本的差异,如果可以进一步通过特征可视化方法,找到质谱数据中无法被鉴定的重要信息,那将对蛋白质质谱数据的分析具有重大意义。在上述背景下,本文引入深度学习方法到肿瘤串联蛋白质质谱数据的分类与鉴定流程中,以期可以提高蛋白质质谱数据的分类表现并找到重要的差异性特征。本文通过分析i Pro X数据库和PRIDE数据库中的三个公开的肿瘤数据集,针对蛋白质质谱数据维度较高、噪声较大的特点提出了一种有效的数据预处理和特征提取方法。首先基于质荷比对高维度的质谱数据进行初步过滤,去除其中噪声严重的部分特征。然后通过支持向量机筛选出有效的质荷比,并根据其对应的强度值和保留时间构建训练数据。最后尝试结合深度学习方法对处理好的数据进行分类,并与多种传统机器学习方法进行了比较。实验结果表明,在肝癌细胞数据集(HCC)上进行十折交叉验证,并使用弥漫性胃癌数据集(DGC)作为独立验证集进行验证,一维的卷积神经网络取得了最佳的分类表现。为了进一步验证结果的有效性,我们还与传统的鉴定方法和定量方法进行比较,结果显示,本文所使用的方法取得了最佳的分类表现。同时,本文还通过SHAP、Grad-CAM等特征可视化方法对分类结果进行分析,尝试找出样本之间的重要差异。蛋白质质谱技术的不断发展以及质谱数据的积累,既对我们的数据处理方法提出了新的挑战,也为我们不断探索新的分析方法提供了机遇。通过本研究已经显示出了深度学习方法在蛋白质质谱数据分析上的巨大潜力,相信随着研究的不断进行,将会有更多有效的分析方法应用在蛋白质质谱研究中。
其他文献
近年来,随着全球经济不断发展,道路上的车辆越来越多,随之而来的是城市交通拥堵和交通事故增加。先进驾驶辅助系统和无人驾驶技术可以通过提醒驾驶员或接管驾驶员操作的方式
目的通过调查内蒙古医科大学附属医院儿童患者肺炎链球菌分离菌株的基因分型特征,了解其优势克隆株,并对其毒力基因表达特征进行分析,进而了解优势克隆株毒力基因表达特征,为进一步探究内蒙古医科大学附属医院儿童患者肺炎链球菌致病特征及机制提供实验数据,为儿童患者肺炎链球菌疾病防治提供临床数据。方法选取2015.12.1-2018.12.30在我院微生物室经微生物培养出肺炎链球菌的儿童及成人分离菌株为研究对象
目的:通过对下胫腓联合损伤(anterior inferior tibiofibular syndesmosis injuries,AITSI)采取解剖学修复的手术方式进行有限元分析并评估其生物力学稳定性,为解剖学修复AITSI的临床应用提供科学依据。方法:将一名正常志愿者的踝关节CT数据导入Mimics 20.0,建立相关骨骼的三维表面模型,再经Geomagic Studio2013构建几何实体
背景:结直肠癌是世界范围内的一类重大癌症,在肿瘤发病率中位居第三,在肿瘤死亡率中位居第二。目前结直肠癌的病因不明确,但已发现一些危险因素,例如不良的生活方式和饮食习
物流普遍存在于居民生活的方方面面,并对国民经济的发展至关重要。订单分配作为物流服务供应链调度领域的核心问题,集成商如何协调物流服务提供商的能力,在整个物流服务供应
随着计算性能的提升和大数据的发展,深度学习的应用大幅度降低了语音识别系统的错误率,使得基于隐马尔科夫-深度神经网络(Hidden Markov Model-Deep Neural Network,HMM-DNN)
Marangoni效应在微重力或零重力环境下作用十分突出,广泛存在于航空航天、晶体生长、薄膜传输、熔池焊接、气泡融合等方面,因此,研究Marangoni边界层流动传输机制具有显著的
随着无线通信技术的快速发展,无线通信设备开始趋向于小型化,集成化,低功耗。而与传统的模拟发射机相比,数字发射机有着配置灵活,可重构,集成度高,高效率,低功耗等优势,因此
5G移动通信技术能够提供更好的用户体验,非正交多址接入(NOMA)技术作为5G移动通信最重要的技术之一。它能够有效提高频谱资源利用效率,而当前对NOMA技术的研究更多的是考虑它
近年来,随着图像处理技术的快速发展,图像边缘检测及目标分类在计算机视觉领域中占有重要地位,也是图像处理领域的研究热点。准确的图像边缘检测及目标分类对于进行高层次的