基于机器学习方法的串联质谱母离子检测算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:songtiger2222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于质谱技术的蛋白质鉴定方法已经成为蛋白质组学研究中的主流方法,而分析质谱数据的常用方法主要是数据库搜索技术。在数据库搜索中,肽段母离子信息的准确性决定着鉴定结果的有效性。但是,目前领域内仍然缺少一种有效地检测母离子信息并校正母离子质量的数据预处理算法。  目前已有的pParse2.0算法可以检测并校正母离子信息,同时支持多种不同的质谱数据类型。pParse2.0基于通用的机器学习框架开发,主要包含谱图预处理以及候选母离子生成、特征提取、粗打分过滤和机器学习方法过滤四个步骤。pParse2.0使用pFind2.8限定式搜索结果标注母离子的正负样例,然后利用多元自适应样本回归样条(MARS)技术训练得到离线模型,对测试数据在线提取9维特征,利用MARS模型对母离子进行分类。  本文在pParse2.0的基础上,进一步探索提升母离子检测算法性能的方法,开发了pParse2.2。主要有以下五个创新点:1)使用pFind3.0开放式搜索结果标注母离子的正负样例。与限定式搜索引擎相比,开放式搜索引擎拥有更高的灵敏度,可以更加准确地标注负例。2)使用新的训练数据Mann-Mouse。与pParse2.0使用的Mann-Hela数据相比,使用Mann-Mouse数据训练的模型在相同导出倍数下具有更高的母离子召回率。3)添加两个新特征。在所有特征中具有比较重要的地位,提高了模型的召回率。4)尝试用SVM模型代替MARS模型,以此简化开发流程。在适当增加导出倍数的情况下,SVM模型具有与MARS模型相近的召回率。5)设计新的评测方案,对母离子检测算法的性能进行全面评估。评价标准主要包括灵敏度、速度、校正后的母离子的一致性以及母离子检测算法对不同种类搜索引擎解析率的影响等。  本文在四组数据上分别构建了标注全集(W),并将其划分为两类:目标标注集(T)和扩展标注集(E)。在这三种标注集上评测软件的性能,实验结果表明:1)pParse2.2具有较高的灵敏度。在标注集W、T和E上分别平均召回约95%,99%和83%的母离子。2)在不同导出倍数下,pParse2.2的召回率均高于pParse2.0。与pParse2.0相比,当导出倍数设置为1倍时,pParse2.2在三种标注集上的平均召回率分别提高了1.6,2.0和0.4个百分点;当导出倍数设置为2倍时,pParse2.2在三种标注集上的平均召回率分别提高了0.9,0.6和1.6个百分点。3)pParse2.2与其他母离子检测软件相比,灵敏度优势明显。与MaxQuant和Hardkl(o)r相比,pParse2.2在标注全集上的平均召回率分别高出17.6和18.6个百分点,在扩展标注集上的平均召回率分别高出27.7和50.3个百分点。4)pParse2.2也可以提高数据库搜索引擎的解析率。在三个常规数据库搜索引擎上多鉴定了至少60%的PSMs;在分析交联和糖肽数据的搜索引擎上分别多鉴定了48.5%和26.7%的PSMs。  总之,pParse2.2能有效地从多种类型的数据中提取准确的母离子信息,在常规的质谱数据分析中将会被广泛应用。
其他文献
广告的推广、商品的买卖是电商、社交、搜索等诸多类型互联网科技公司主要的经济来源。商品、广告的划分以及用户的点击行为预测,可以帮助企业解决商品、广告的推荐问题。  
RFID(无线射频识别)系统是开放环境下的,没有任何物理或其它可见接触的一种通信技术.由于其布置不受环境影响,成本低廉,所以RFID系统有着广泛的应用前景,目前已在很多领域使用.但
基于FPGA与USB的综合地面检测设备是国家重大科技基础设施项目——东半球空间环境地基综合监测子午链(即子午工程)探空火箭综合监测分系统的组成部分之一。地面检测设备要解
钻井领域的软件开发工作需要软件开发人员和领域专家密切合作来完成,领域专家提供适用于领域内的专业计算算法,软件开发人员依据这些算法实现相应的功能。由于领域专家往往掌握
针对新靶标探索新颖的先导化合物是药物发现和设计过程中最重要的步骤之一。目前,获得先导化合物的途径主要有两种:一是通过基于实验的高通量筛选方法来筛选分子库从而获得有苗
校园网络不断快速发展,己成为反映大学生思想道德健康的一个重要窗口。从校园网络BBS、博客中检测大学生乐于讨论的话题和事件是掌握大学生心理健康的重要途径。为了建立一套
随着国家电信业改革的深化,国内电信业的市场环境已渐趋合理,竞争将日益加剧,正确的决策无疑是企业制胜的根本。为了支持正确决策,就要求所管理的数据可靠,没有错误,准确地反
学位
课表编排是一个涉及多种因素的组合规划问题,它要保证在课程安排中教师、学生、教室不能产生冲突(所谓冲突,就是将需上不同课程的两个或多个班级安排在了同一个时间、同一间
学位
随着互联网络信息技术的不断发展,网络信息共享已成为一种必然的趋势。这必然为我们的生活带来巨大的变化,信息技术除了为我们带来便利之外,如何从大量信息中找到对我们有用的信
新传感网产业物联网(The Internet of Things)的再一次盛行和IBM“智慧地球”的提出,将再一次把无线传感器网络(Wireless Sensor Network)的发展推向新的高潮。良好的WSN仿真