计算蛋白质组学中规模化肽段鉴定的多重假设检验方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dx0746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组学是一门研究蛋白质及其相关生物功能和过程的综合学科。尽管存在多种可选的策略,串联质谱技术已经成为当前蛋白质组学研究的核心技术,而蛋白质数据库搜索是目前从串联质谱数据鉴定肽段的主要手段。通过数据库搜索得到的肽鉴定结果中只有一部分是正确的,为了从其中过滤出尽可能多的可信结果,我们需要评价鉴定结果的可靠性。蛋白质组学领域最常用的评价肽鉴定结果可靠性的方法是目标诱饵库搜索策略。该策略被广泛地用来估计鉴定结果的假发现率(falsediscoveryrate,FDR),具有较好的实际效果,并得到了大量的实验性研究。但是该策略的理论基础却没有建立,比如我们不知道目标诱饵库搜索策略是否能保守地估计FDR,也不知道是否能严格地控制FDR。另外,该策略在实际中有多种使用方式,即合并的目标诱饵库搜索或者分开的目标诱饵库搜索,以及从谱图层次估计FDR或者从肽段层次估计FDR。哪种方式更合理,目前仍无定论。  本文对目标诱饵库合并搜索进行了理论建模,并对建模过程中用到的基本假设进行了充分的实验验证。利用该模型,我们证明了目标诱饵库合并搜索可以保守地估计FDR,这在一定程度上解释了目标诱饵库合并搜索的有效性。更严格的分析表明,基于这个保守估计的过滤规则无法控制鉴定结果的FDR。在对该估计进行“加1”修正之后,我们得到了一个新的对FDR的保守估计,并证明在不同的错误鉴定来自于目标库还是诱饵库相互独立的条件下,基于该估计的过滤规则可以严格控制FDR。在计算肽段层次的FDR时,独立性一般是成立的;但在计算谱图层次的FDR时,因为错误鉴定的谱图倾向于同时匹配上目标序列或同时匹配上诱饵序列,独立性较难满足。因此控制谱图层次的FDR比控制肽段层次的FDR困难。本文对不同的过滤规则控制FDR的效果进行了实验分析,以验证理论分析的结果。  此外,通过对目标诱饵库合并搜索与目标诱饵库分开搜索的统一模型,本文发现目标诱饵库分开搜索的前提假设不成立,至少比合并搜索的假设更难满足。这主要有两个原因:一是不同谱图对应的错误匹配打分分布不同,本文对此进行了实验验证;二是错误匹配的打分分布同其条件分布不同,由此证明了目标诱饵库分开搜索无法控制FDR。
其他文献
学位
学位
学位
学位
学位
学位
学位
跨媒体语义检索是文本、图像等检索领域中的一个前沿研究方向。由于文本、图像等不同媒体底层特征是异构的,并且与高层语义存在语义鸿沟,媒体检索时无法有效地实现从内容到用户
学位
近些年,随着无线通信技术和移动多媒体业务的快速发展,激增的移动用户数量和移动多媒体业务越来越高的带宽需求,给日益稀缺的无线频谱资源和现有固定式频谱分配方案带来了巨大的