蛋白质组串联质谱鉴定结果质量控制工具的评估和应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liu716313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
质量控制是大规模蛋白质组数据分析中关键问题之一,而目标-诱饵搜索策略是目前质量控制中的主流策略。该策略支持绝大多数搜库引擎,并且大多数质控工具也是基于该策略发展的模型和算法。但是该策略只能按照错误发现率(False Discovery Rate,FDR)进行卡值,却不能确切估计卡值之后所鉴定到的肽段谱图匹配中究竟有多少是假阳性匹配。为弥补此缺陷,本研究在目标-诱饵搜索策略的基础之上发展了陷阱序列法以建立评估蛋白质组数据分析流程的客观标准。目标-诱饵搜索策略仅仅将样本序列(A)作为目标序列库;而陷阱序列法是向样本序列(A)中掺入与样本序列同源性极低的陷阱序列(B),并一起构成目标序列库;然后将目标序列库通过反转的方式构建诱饵序列库(A’+B’),通过加入不同的标签以识别鉴定结果来自(A/B/A’/B’)中哪一个序列库。本研究围绕陷阱序列法作了如下两方面工作:1.发展了陷阱序列法。本研究以嗜热菌数据集作为样本分析,下载了对应的嗜热菌序列作为样本序列;下载了人的序列作为原始陷阱序列,通过随机化原始陷阱序列构建出13种不同大小的陷阱序列;这13种不同大小的陷阱序列分别与样本序列结合以构建用于搜库鉴定的13种目标序列库,以此探讨陷阱序列的大小对评估效果的影,研究发现陷阱序列是样本序列的10倍时效果较好。本研究同时定义了陷阱序列法中的评估指标—错误匹配率(False Match Rate,FMR)并推导出计算公式。2.采用陷阱序列法评估了蛋白质组数据分析流程中搜库鉴定和质量控制两个关键步骤。根据研究1的结果,先构建陷阱序列10倍于样本序列的目标序列库;以标准数据集和实验数据集作为样本分析,首先评估搜库引擎的原始打分,继而评估四种质控工具,然后评估搜库引擎质控之后的重新打分;本研究也提出了整合多搜库引擎和质控工具结果的一种策略;最后探讨了使用小比例的陷阱序列进行评估的可能性(陷阱序列同倍于样本序列)。本研究发现MS-GF+的原始打分及重新打分在五种搜库引擎中表现最好;PepDistiller在四种质控工具中表现最好;将鉴定结果进行分组并根据FDR进行二次过滤可以增加鉴定结果数目并提高鉴定结果的可靠性。本研究将为研究人员在选择搜库引擎和质控工具进行蛋白质组数据分析时提供一个合理的参考;进而规范化蛋白质组数据分析流程。
其他文献
随着社会的发展,风力发电作为可再生资源中最为简单的工程,其在我国资源利用中发挥着重要的作用。而风力发电工程的质量若要达到标准,其对于风机基础大体积混凝土的施工有着
本文从以一些因环境问题而需要坍台的企业出发,阐述针对这类企业应收取超额电费,并解释了其合理性,针对这类企业收取超额电费是为了保护环境,通过政府的运作,使得人民生活幸福。
多媒体辅助教学是科学技术发展的产物,也是教育发展的必然趋势,比较、分析其运用于初中物理教学过程中的一些实例,让我们正确认识了它在物理教学中的作用以及一些现实误区。促进
氧化石墨烯(GO)作为石墨烯的衍生物,具有大的比表面积以及高强度,由于其片层上含有大量的羧基、羟基与环氧基等活性基团,使其亲水性增强,可以分散在水相中形成均匀的分散体系
环境污染作为一个重大社会问题,已经困扰了人类相当长的一段时间,随着环境破坏造成的危害越来越严重,人类越来越意识到保护环境的重要性。生物圈是地球上一切生物的立足点,保护好
乡村旅游日益受到当代人的喜爱,随着美丽乡村建设,进一步促进了乡村旅游的发展,其中涉及当地村民生计转型的问题研究也越来越多,但研究还是不够系统全面,现有的研究框架主要
为切实把扶贫工作抓出成效,今年以来,淄博市张店区房镇镇强化措施,扎实推进精准扶贫.
建筑策划作为建筑学的一个细分领域,越来越受到建筑从业人员的重视。在设计前期缺乏建筑策划,导致建筑空间内容设置不合理、功能组织不完善以及过分关注建筑造型的现象越来越
本文考虑了一个具有可选服务、反馈的M/G/1重试排队系统。在假定重试区域中只有队首的顾客允许重试的情况下,重试时间具有一般分布时,得到了系统稳态的充分必要条件。求得稳态时
本文运用DEA(Data Envelopment Analysis)技术,建立了电子政务网站评估的DEA模型,并对全国28个省市的政府网站进行了详细的评估。该评估模型与目前常用的电子政务网站评估方法不