论文部分内容阅读
肿瘤细胞中的突变基因能够转录成mRNA、翻译成相应的突变蛋白,这些异常的蛋白质被蛋白酶体降解成大量的短肽并与肿瘤细胞中的人类白细胞抗原(humen leukocyte antigen,HLA)结合,随后被呈递到肿瘤细胞表面,其中部分的突变肽段能够被T细胞受体(T cell receptor,TCR)所识别引起免疫应答,这些仅存在于肿瘤细胞且能够被T细胞特异性识别的突变短肽段被称为“新抗原”。基因组上的每一个错义突变都能够产生大量的突变肽段,能够被T细胞识别并引起免疫应答的肽段的数量非常少,采用细胞学实验鉴定HLA分子结合肽是个耗时耗力的过程,面对抗原表位的大规模筛选时,单纯采用实验方法鉴定几乎是不可能的。因此,免疫原性候选新抗原的特异性筛选与鉴定是肿瘤新抗原研究的一个重大挑战。近年来,随着基因组学和蛋白质组学技术的提高以及生物信息学工具的发展提高了肿瘤新生抗原的筛选能力,基因组大数据和计算机算法加速了肿瘤表位预测,使得抗原表位的大规模筛选成为可能。然而,现有的预测工具仅仅是基于基因组和转录组数据进行预测,而忽略了与蛋白质组学数据的结合。本研究使用比转录组水平筛选更严格、比细胞学实验更省时的蛋白质基因组学方法来预测和筛选新抗原,并利用Jurkat白血病细胞系的基因组和蛋白质组数据构建个性化肿瘤新抗原预测流程。首先,基于全基因组的数据处理和突变注释,我们鉴定出9,817个错义突变;通过NetMHCpan预测了36,835个HLA-I类限制性候选新抗原;随后,基于转录水平上突变基因表达量,将候选新抗原的数量降低到30,142个;基于RNA-seq数据所构建的个性化蛋白质数据库以及利用MaxQuant质谱分析软件进一步进行筛选,有655个候选新抗原在蛋白质水平上得到了鉴定;为了评估这些候选新抗原是否能够被CD8+T细胞识别,将其与免疫表位数据库中的交叉反应性微生物肽进行序列同源性比对,结果显示有313个新抗原最有可能被TCR识别,这部分的候选新抗原可能具有良好的免疫原性。为了测试能否鉴定到HLA-抗体富集的质谱中的突变肽段,我们分析了单等位基因细胞的高通量测序和质谱数据,直接识别出9个含有来自HLA-B5701分型的突变肽配体。结合质谱技术将突变肽段鉴定引入肿瘤新抗原发现工作流程,保证只有那些被MHC-I提呈和足够表达的肽段,即最有可能产生免疫应答的肽段进入后续研究,极大地降低了实验验证负担。为了便于后续研究人员使用此工作流程,该工作流程中所涉及的软件以及相关数据处理代码已整合封装为软件包ProGeo-neo(https://github.com/kbvstmd/ProGeo-neo)。ProGeo-neo是首个将蛋白质谱数据分析纳入新抗原预测的工具包,虽然该工具是在Jurkat白血病细胞系的基因组学和蛋白质组数据上得到检验,但它同样也适用于其他实体癌症的新抗原预测,将为肿瘤免疫治疗研究提供新的助力。