论文部分内容阅读
随着质谱技术的发展,诞生了一门新的学科:蛋白质-基因组学。它是蛋白质组和基因组相交互的研究领域。通过基因组学和转录组学提供的信息,定制新的蛋白质序列数据库,再用这些蛋白数据库去检索质谱数据,从而鉴定全新的肽段。反过来,串联质谱得到蛋白质组的数据,可以提供蛋白质层面上的基因表达证据,从而进一步完善基因模型。 本文针对基于串联质谱的蛋白质-基因组学的热点研究进行了分析与研究,通过建立蛋白质序列数据库鉴定新肽段,并应用该方法研究了三个生物问题。文章的主要贡献为: (1)提出了迭代式的蛋白质-基因组学研究流程。每一次实验都利用前次实验的结果作为输入,并加以过滤,同时本次实验的结果可以作为后续实验的部分数据源。本方法能将实验分成多个步骤,细化任务,把复杂问题简单化;能在每一步实验后较灵活地修正研究方向,使研究问题较快地收敛;对要寻找的特定突变类型具有较高的敏感性。 (2)设计了多个突变蛋白质序列建库算法。本文针对具体生物学问题设计了多个模拟突变蛋白质序列的算法,并具有多种输入接口,便于进行迭代研究流程。算法能够无缝地进行预实验和验证实验。 (3)研究了蛋白质翻译过程中的提前终止。本工作通过对前人实验结果的总结,提出了提前终止翻译蛋白质的假说,利用迭代式的蛋白质-基因组学研究流程进行实验分析,否定了实验假说,最终验证了蛋白质在溶液中酶切的现象。 (4)验证了基因上游开放阅读框。本工作对uORF问题进行了分析,提出了模拟建立uORF翻译后序列的算法,通过与前人Ribo-Seq结论的对比,证实了本算法的有效性。经过数据库搜索验证,发现uORF翻译后序列的降解速度快,不适合用串联质谱分析法来寻求证据。 (5)探究了核糖体延伸过程中的读框移位。本工作设计了扫描式的核糖体读框移位突变,生成了六种类型的读框移位突变蛋白质序列。通过数据库搜索鉴定,锁定了多甘氨酸的突变形态,并更改算法,建立了多甘氨酸突变蛋白质序列数据库。经过多次迭代式的数据库搜索,最终找到了多肽序列的N-terminal修饰。