论文部分内容阅读
小蛋白质(small proteins,SPs)通常指由小开放阅读框(short open reading frames,sORFs)编码长度小于100个氨基酸(AA)的多肽。研究发现小蛋白质参与了基因表达调控、细胞信号转导和代谢等重要生物学过程。然而,小蛋白质研究面临着很多技术难题,进展缓慢。小蛋白质编码基因在注释过程中也存在很多技术难题、易被忽略。几乎所有生命体中的大多数已注释小蛋白质尚缺少蛋白水平存在的实验证据及相关功能研究,被称为漏检蛋白(missing proteins,MPs)。小蛋白质丰度比较低,在蛋白质鉴定中面临很大的挑战。小蛋白质鉴定覆盖度的提高有助于研究者验证更多MPs、发现更多漏注释sORF。我们以酿酒酵母(Saccharomyces cerevisiae S288C)作为研究对象,优化了小蛋白质富集策略。通过四种富集策略,我们共鉴定到117个酵母小蛋白质,占酵母PE1(蛋白水平存在实验证据)中小蛋白质的57%;成功验证了31个MPs;发现并验证了3个酵母漏注释sORFs(YKL104W-A、YHR052C-B和YHR054C-B)。酵母小蛋白富集实验发现低分子量、高疏水性、膜相关性、弱密码子偏性及不稳定性是蛋白漏检的主要原因,对小蛋白质的进一步发掘具有技术指导意义。我们建立了适合于sORFs的蛋白质基因组学流程。在第一部分工作中,我们合并已注释肽段和新肽段,以1%全局假阳性率(FDR)筛选新肽段,并进一步利用3种FDR(S-FDR、T-FDR I和T-FDR II)对新肽段分别进行质控,验证了3条新肽段。进一步研究发现,全局性1%FDR基础上,3种FDR进一步筛选策略过于严格,被3种FDR过滤掉的肽段中仍存在不少肽谱匹配较好的新肽段,经肽段合成,我们验证了其中3条。当前蛋白质基因组学基于FDR的新肽段筛选策略不易同时兼顾到灵敏度和准确度。针对此问题,我们探索了适合于sORFs筛选的蛋白质基因组学流程。研究发现,当前肽谱匹配打分机制难于区分高、低质量的肽谱匹配,这是造成新肽段鉴定过程中高假阳性率的根本原因。更高效的低质量肽谱匹配过滤方案,有望解决新肽段鉴定中高假阳性率问题。我们提出在以表征真阳性新肽段最低标准的Raw score阈值,对未经质控的所有新肽段进行初筛,在保证新肽段鉴定灵敏度的基础上,进一步采用PSM score和基峰强度阈值过滤策略来筛选新肽段,发现并验证了另外4条新肽段。基于酵母sORFs蛋白质基因组学策略,我们共鉴定到7条新肽段,基因坐标中分别对应了酵母7个漏注释sORF(YBL071WB、YDL191C-A、YHL029W-A、YMR106W-A、YBL063C-A、YKL038W-A和YPL049C-A)。蛋白质和基因层面同源性比较分析表明,这7个新基因与其近源物种同源性比较低,可能具有特殊功能,有待进一步展开研究。