pTop 2.0:整体蛋白质的精准鉴定与定量算法研究及软件开发

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:pengxiubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“自顶向下”(Top-Down,TD)的蛋白质组学主要是以直接鉴定和定量整体蛋白质为研究目标。其中的计算问题相对于以肽段为研究对象的“自底向上”(Bottom-Up,BU)的蛋白质组学变得更加复杂与困难,包括快速获取有效候选蛋白质、多翻译后修饰的高效鉴定、搜索结果的多谱排序、以及整体蛋白质的准确定量等等。本文以整体蛋白质的质谱数据为研究出发点,以设计与实现新的高效算法为主要研究内容,重点解决整体蛋白质鉴定中的截断蛋白质鉴定、多翻译后修饰高效鉴定和多谱排序三个算法问题,力图在保证尽可能快速的前提下进一步提高整体蛋白质质谱数据的解析率。  本文的贡献具体包括如下三个方面。  第一,通过新的蛋白质鉴定算法和搜索流程提升了谱图解析率。本文利用序列标签的两翼质量偏差实现了截断蛋白质的鉴定,并通过粗打分进一步过滤候选蛋白质。通过对常见的修饰类型建立修饰索引表实现了搜索可变修饰的同时允许一个意外修饰的鉴定。本文还探索并实现了离子索引流程,并将其作为二次搜索模块,进一步提高了引擎的灵敏度。综合上述工作,经测试表明,本文开发的pTop2.0在多个数据集上的解析率比pTop1.2高出约6%到11%,比TopPIC高出约12%到25%。  第二,实现了基于半监督学习的重打分方法,提升了鉴定的灵敏度。本文提取了搜索结果的11维特征,通过线性SVM进行迭代训练和打分,并利用目标-诱饵库策略估计FDR。在两个数据集上测试发现,使用SVM重排序后解析率提高了2%到5%。  第三,通过大量测试与分析已有软件pTop1.2的性能与局限,本文实现了上述新提出的算法,并开发了整体蛋白质搜索引擎pTop2.0。另外,pTop2.0还增加了定量功能,集成了pQuant定量模块,实现了整体蛋白质基于一级谱的准确定量。本文通过多线程技术实现了流程的加速,为高通量的整体蛋白质鉴定与定量提供了一套精准高效的数据分析工具。
其他文献
随着Internet以及电子商务的发展,人们对信息安全的需要越来越迫切.为了保证互联网上信息传输的机密性、真实性、完整性和不可否认性,防范电子交易及支付过程中的欺诈行为,必
该文的目标在于研究异构生物信息数据源的集成与互操作技术,在综合和参照现有系统的基础上,主要的工作如下:●综述了现有的生物信息源集成方法,指明Mediator-Wrapper是有效的
OpenMP是面向SMP体系结构的并行编程标准,MPI是面向MPP体系结构的并行编程标准.随着主流超级计算机系统由SMP向MPP过渡,OpenMP必然向MPI过渡.但是它们之间差异很大,手工转化
基于块匹配运动估计与补偿的压缩方法是应用最广泛的视频压缩技术,已被各种编码标准采用.基于模型的压缩方法是一种高级的视频压缩技术,能在保证图像质量的前提下,获得极高的
Web Services作为一种基于Internet的分布式组件技术,在动态电子商务环境中体现出越来越重要的作用。本文主要对Web services体系的核心技术和安全规范做详细分析,在这基础上提
随着国家教育事业的发展,计算机网络技术的不断完善,远程教育的方式越来越被人们所接受,为了更好地检测出学习人员的真实水平,各个考点都推出了各自的考试系统。这些考试系统有的
图像分类是一种根据图像的视觉内容将其自动划分到预先定义好的不同语义类别的方法。它是计算机视觉领域中的一项重要任务,是场景识别、目标检测、图像检索、视频检索等视觉任
本论文主要讲述了基于IPSEC协议体系和共享密钥认证机制的VPN系统的实现。该系统是为SED F2003防火墙系统提供一个可选的VPN功能模块,以提高该产品竞争力。本文通过对VPN技术
随着大数据时代到来,海量数据存储面临巨大挑战,基于磁盘的存储系统,磁盘I/O已经成为性能瓶颈,解决的方法是利用分布式内存存储系统。从应用的缓存系统到大数据处理的存储平台,数
OLAP和Web Service都是近年来日益受到人们重视的软件技术。OLAP向人们提供了一种强大的信息分析处理技术;而这两年来迅速崛起的WebService技术则以其开放、简单、易于实现的