论文部分内容阅读
摘 要:线性B细胞表位是由抗原分子表面肽链上连续的氨基酸残基构成的序列,准确预测不仅有助于揭示抗原-抗体之间的相互作用机制,而且可以极大地降低定位的时间成本和人工成本,提高工作效率。论文简要综述了线性B细胞表位的特性,回顾了近几年来的预测方法和预测服务器确定线性B细胞表位的常用方法和表位分析的研究方法,对于疾病的预防和诊治等应用研究也具有极大的推动作用。
关键词:B细胞表位;服务器;研究
中图分类号:R392
表位是抗原分子中被相应抗体或抗原受体识别的特定部位。B细胞表位[1]是抗原中可被B细胞抗原受体(BCR)或抗体特异性识别并结合的线性片段或空间构象性结构,其刺激机体产生B细胞介导的体液免疫应答,并产生效应分子(抗体)和效应细胞。线性B细胞表位是由抗原分子表面肽链上连续的氨基酸残基构成的序列。B细胞表位预测研究主要还是以线性B细胞表位预测为主,目前已有较多关于线性B细胞表位的数据库和预测算法、软件发布。
1 抗原表位
抗原表位[2],又称抗原决定簇(antigenic determinant,AD)指抗原分子中决定抗原特异性的特殊化学基团。抗原通过抗原表位与相应的淋巴细胞表面的抗原受体结合,从而激活淋巴细胞,引起免疫应答;抗原也借表位与相应抗体或致敏淋巴细胞发生特异性结合而发挥免疫效应。抗原表位的性质、数目和空间构型决定抗原的特异性。抗原表位是免疫原抗原性的物质基础,开展对抗原表位的研究将对病原的诊断以及分子疫苗的设计等具有重要的意义。
2 线性B细胞表位筛选方法
B细胞表位[3]是抗原中可被B细胞抗原受体(BCR)或抗体特异性识别并结合的线性片段或空间构象性结构,其刺激机体产生B细胞介导的体液免疫应答,并产生效应分子(抗体)和效应细胞。在免疫学中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。
2.1 基于递归神经网络的线性B细胞表位预测服务器[4]
在多肽疫苗的开发中B细胞表位起到了至关重要的作用,在疾病的诊断中,也可用于过敏研究。标准的前馈(FNN)和递归神经网络(RNN)有被用在本研究中,用于预测抗原序列中的B细胞表位。网络已经被训练和测试,在一个完整的数据集中,由700个非冗余的B细胞表位来自于Bcipep数据库和同等数量的非表位来自于SWISS-PROT数据库。该网络已经训练和测试在不同的输入窗口长度和隐结点中。最大精度已使用递归神经网络具有单隐层的35个隐藏的单位窗口长度为16。当测试在五倍折交叉验证时,最终的网络产生准确度为65.93%。相应的敏感性,特异性和阳性预测值为67.14,64.71,和65.61%。在以往的研究中RNN比FNN在B细胞表位的预测中效果更好。该肽的长度也是重要的在预用词从抗原序列的B细胞表位。
2.2 基于氨基酸对抗原规模的线性B细胞表位预测[5]
在生物信息学中蛋白抗原位点的鉴定是至关重要的,开发的合成肽疫苗,免疫诊断测试的距离和抗体的产生。目前,大多数的预测算法倾向于使用氨基酸滑动窗口方法。这些方法过于简单,并在实践中产生不良的预测结果。提出了一种新颖的规模,称为氨基酸对抗原(AAP)规模,基于这一发现,更加有利于B细胞表位预测。它表明,使用SVM(支持向量机)分类,AAP抗原尺度方法具有更好的性能比现有单个氨基酸倾向尺度。AAP抗原规模可以反映一些特殊的序列在B细胞表位特征中,它的本质是为什么新的方法是优于现有的。可以预料与已知的抗原表位的数据,氨基酸对抗原规模的做法将进一步增强。
2.3 基于内核字符串线性B细胞表位预测[6]
B细胞表位的鉴定和表征在疫苗设计中扮演重要的角色,免疫诊断测试,并产生抗体。因此,可靠的计算工具预测线性B细胞表位是非常可取的。评估的支持向量机(SVM)利用五个不同的内核上五倍使用交叉验证的方法分类培训同源减少701线性B细胞表位,从Bcipep数据库中提取的数据,和701非抗原表位,随机抽取从SwissProt数据库序列。根据我们的结果计算实验中,我们提出BCPred,线性B细胞表位预测的新方法使用序列内核。我们表明,预测性能BCPred(AUC=0.758)优于11基于SVM分类器的开发和评估,以及在我们的实验中,我们执行的AAP(AUC=0.7),最近提出的一种方法,用于预测线性B细胞使用氨基酸对抗原的表位。此外,我们比较AAP和BCPred,ABCPred 独特的B细胞表位,使用递归神经网络的方法,该方法为使用两个数据集先前已用于评估ABCPred的。使用和分析的数据集的结果这个比较表明,不同的B细胞表位的相对性能的结论预测方法的基础上得出的实验中使用的数据集的独特的B细胞表位的可能产生的性能评估方法的估计过于乐观。这认为使用精心同源性减小数据集的B细胞表位的预测方法进行比较,以避免有关如何不同的方法的误导性的结论相互比较。同源精简数据组和BCPred实现以及APP的方法是公开的。
2.4 基于一种新系统的线性B细胞表位预测[7]
在几十年的研究中尽管具有挑战性的任务,B细胞抗原表位的准确的预测仍然是在计算免疫学中。只有10%的已知B细胞表位的估计是连续的,但他们往往却是目标预测,因为解决三级结构是必需的,它们是不可或缺的肽疫苗和治疗蛋白质工程的发展。在这篇文章中,提出COBEpro,新的两步预测连续B细胞系统抗原表位。COBEpro是能够分配表位pensity分数两个独立的肽片段抗原序列内的残留物。COBEpro首先使用支持向量机进行预测在查询抗原序列和肽片段,然后计算表位的倾向得分为每个基于片段的预测的残余物。次要结构和溶剂辅助功能信息(无论是预测或准确)可以被纳入到提高性能。COBEpro实现了交叉验证受试者工作特征曲线(AUC)下teristic高达0.829片段上抗原决定基的倾向得分任务的AUC为0.628残余物外延主题倾向得分任务。 3 用于线性B细胞表位预测工具建立与评价的数据库
免疫信息学[8]数据库是随着生物信息学和免疫基因组学的不断进步而逐渐发展起来的,是专门收录免疫学相关分子信息,实现数据存储、查询、分析,计算等功能的数据库。最初,与免疫相关的多肽序列、抗原分子等信息与其他生物数据一起,被收录在各类生物信息学数据库中,随着免疫学研究的发展,人们对免疫学相关分子信息的需求越来越迫切,需要单独对这些数据进行计算、分析和预测,一些研究机构开始尝试从生物信息学基础数据库中提取免疫相关的生物数据,开发集存储、查询、计算、预测以及绘图分析功能为一体的免疫学数据库。目前,网络上的免疫信息学数据库已达数十个,它们的规模大小不一,内容与侧重点也不尽相同,其中的大部分数据来源于GenBank、EBI、EMBL,供研究人员免费使用。
3.1 Bcipep:B细胞表位数据库
Bcipep[9]是各种免疫原性B细胞表位数据库,目前Bcipep数据库包含3031个条目,其中包括763免疫显性,1797免疫原性和471空的免疫原性的抗原表位,每条记录包含多肽序列、源蛋白、病原体、免疫原性、中和性、模式生物、实验方法、参考文献、抗原结构等信息,它涵盖范围广泛,如病毒、细菌、原生动物、真菌。该数据库提供了一组工具,用于分析和提取的数据,其中包括关键字搜索,肽谱分析和BLAST搜索。Bcipep称为一个完整B细胞表位数据库,已经开发了一个覆盖广泛的病原体的抗原决定簇的信息。该数据库有助于B细胞表位预测方法的研究、合成肽疫苗的设计和疾病的诊断。
4 结束语
显而易见,线性B细胞表位预测现状与人们理想预期还存在很大的差距,利用软件预测线性B细胞表位并不完全准确,还需要实验的进一步验证。为了研发更准确的预测工具,需要建立高质量的训练数据集和检验数据集,数据集的质量高低与预测工具的预测能力密切联系;另外,统一评价体系也是目前急待解决的问题。评价体系的标准化,既有助于软件开发者采用最有效的算法创建更准确的工具,又方便了使用者对工具的筛选和评价。统一评价体系首先要面临的问题是所有数据格式的统一,有了一致的数据格式,才能进行比较。在表位预测领域尚缺乏高质量的标准数据集,针对标准的数据集开发自动评价工具将是未来的发展方向。相信随着生物信息学的快速发展,线性B细胞表位计算机预测技术将会越来越成熟。
参考文献:
[1]Peters B,Sidney J, Bourne P, et al.The design and implementation of the immune epitope database and analysis resource[J].Immunogenetics,2005,57(5):326-336.
[2]吴敏毓,刘恭植.医学免疫学:第四版[M].北京:中国科学技术大学出版社,2002:1-2.
[3]吕凤林,朱锡华.人C5aR(CD88)序列结构分析及其B细胞表位预测[J].免疫学杂志,1998,14(3):153-156.
[4]Saha S,Raghava GP (2006) Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins.65:40-48.
[5] Chen J,Liu H,Yang J,Chou KC (2007) Prediction of linear B-cell epitopes using amino acid pair antigenicity scale.Amino Acids 33:423-428.
[6]El-Manzalawy Y,Dobbs D, Honavar V (2008) Predicting linear B-cell epitopesusing string kernels.J Mol Recognit 21:243-255.
[7]Sweredoski MJ,Baldi P (2009) COBEpro: a novel system for predictingcontinuous B-cell epitopes.Protein Eng Des Sel 22:113-120.
[8]Walsh R, Locarnini S. Hepatitis B precore protein: pathogenic potential and therapeutic promise[J].Yonsei Med J,2012,53(5):875-85.
[9]Saha S, Bhasin M, Raghava GP (2005) Bcipep:a database of B-cell epitopes.BMC Genomics 6:79.
[10]Roseman AM, Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[11]Yasser EL-Manzalawy, Vasant Honavar. Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
[12]Roggen EL. B-cell epitope engineering: A matter of recognizing protein features and motives[J].DDT:Technol,2008,5(2-3):e49-55.
[13]冯新港.免疫信息学原理及其应用[M].上海:上海科学技术出版社,2009,6:1-5.
[14]Alix,A. (1999) Vaccine,18,311-314 (314).
作者简介:董娇娇(1987.10-),女,吉林汪清人,硕士研究生,研究方向:生物信息学。
作者单位:东北师范大学计算机科学与信息技术学院,长春 130117
关键词:B细胞表位;服务器;研究
中图分类号:R392
表位是抗原分子中被相应抗体或抗原受体识别的特定部位。B细胞表位[1]是抗原中可被B细胞抗原受体(BCR)或抗体特异性识别并结合的线性片段或空间构象性结构,其刺激机体产生B细胞介导的体液免疫应答,并产生效应分子(抗体)和效应细胞。线性B细胞表位是由抗原分子表面肽链上连续的氨基酸残基构成的序列。B细胞表位预测研究主要还是以线性B细胞表位预测为主,目前已有较多关于线性B细胞表位的数据库和预测算法、软件发布。
1 抗原表位
抗原表位[2],又称抗原决定簇(antigenic determinant,AD)指抗原分子中决定抗原特异性的特殊化学基团。抗原通过抗原表位与相应的淋巴细胞表面的抗原受体结合,从而激活淋巴细胞,引起免疫应答;抗原也借表位与相应抗体或致敏淋巴细胞发生特异性结合而发挥免疫效应。抗原表位的性质、数目和空间构型决定抗原的特异性。抗原表位是免疫原抗原性的物质基础,开展对抗原表位的研究将对病原的诊断以及分子疫苗的设计等具有重要的意义。
2 线性B细胞表位筛选方法
B细胞表位[3]是抗原中可被B细胞抗原受体(BCR)或抗体特异性识别并结合的线性片段或空间构象性结构,其刺激机体产生B细胞介导的体液免疫应答,并产生效应分子(抗体)和效应细胞。在免疫学中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。
2.1 基于递归神经网络的线性B细胞表位预测服务器[4]
在多肽疫苗的开发中B细胞表位起到了至关重要的作用,在疾病的诊断中,也可用于过敏研究。标准的前馈(FNN)和递归神经网络(RNN)有被用在本研究中,用于预测抗原序列中的B细胞表位。网络已经被训练和测试,在一个完整的数据集中,由700个非冗余的B细胞表位来自于Bcipep数据库和同等数量的非表位来自于SWISS-PROT数据库。该网络已经训练和测试在不同的输入窗口长度和隐结点中。最大精度已使用递归神经网络具有单隐层的35个隐藏的单位窗口长度为16。当测试在五倍折交叉验证时,最终的网络产生准确度为65.93%。相应的敏感性,特异性和阳性预测值为67.14,64.71,和65.61%。在以往的研究中RNN比FNN在B细胞表位的预测中效果更好。该肽的长度也是重要的在预用词从抗原序列的B细胞表位。
2.2 基于氨基酸对抗原规模的线性B细胞表位预测[5]
在生物信息学中蛋白抗原位点的鉴定是至关重要的,开发的合成肽疫苗,免疫诊断测试的距离和抗体的产生。目前,大多数的预测算法倾向于使用氨基酸滑动窗口方法。这些方法过于简单,并在实践中产生不良的预测结果。提出了一种新颖的规模,称为氨基酸对抗原(AAP)规模,基于这一发现,更加有利于B细胞表位预测。它表明,使用SVM(支持向量机)分类,AAP抗原尺度方法具有更好的性能比现有单个氨基酸倾向尺度。AAP抗原规模可以反映一些特殊的序列在B细胞表位特征中,它的本质是为什么新的方法是优于现有的。可以预料与已知的抗原表位的数据,氨基酸对抗原规模的做法将进一步增强。
2.3 基于内核字符串线性B细胞表位预测[6]
B细胞表位的鉴定和表征在疫苗设计中扮演重要的角色,免疫诊断测试,并产生抗体。因此,可靠的计算工具预测线性B细胞表位是非常可取的。评估的支持向量机(SVM)利用五个不同的内核上五倍使用交叉验证的方法分类培训同源减少701线性B细胞表位,从Bcipep数据库中提取的数据,和701非抗原表位,随机抽取从SwissProt数据库序列。根据我们的结果计算实验中,我们提出BCPred,线性B细胞表位预测的新方法使用序列内核。我们表明,预测性能BCPred(AUC=0.758)优于11基于SVM分类器的开发和评估,以及在我们的实验中,我们执行的AAP(AUC=0.7),最近提出的一种方法,用于预测线性B细胞使用氨基酸对抗原的表位。此外,我们比较AAP和BCPred,ABCPred 独特的B细胞表位,使用递归神经网络的方法,该方法为使用两个数据集先前已用于评估ABCPred的。使用和分析的数据集的结果这个比较表明,不同的B细胞表位的相对性能的结论预测方法的基础上得出的实验中使用的数据集的独特的B细胞表位的可能产生的性能评估方法的估计过于乐观。这认为使用精心同源性减小数据集的B细胞表位的预测方法进行比较,以避免有关如何不同的方法的误导性的结论相互比较。同源精简数据组和BCPred实现以及APP的方法是公开的。
2.4 基于一种新系统的线性B细胞表位预测[7]
在几十年的研究中尽管具有挑战性的任务,B细胞抗原表位的准确的预测仍然是在计算免疫学中。只有10%的已知B细胞表位的估计是连续的,但他们往往却是目标预测,因为解决三级结构是必需的,它们是不可或缺的肽疫苗和治疗蛋白质工程的发展。在这篇文章中,提出COBEpro,新的两步预测连续B细胞系统抗原表位。COBEpro是能够分配表位pensity分数两个独立的肽片段抗原序列内的残留物。COBEpro首先使用支持向量机进行预测在查询抗原序列和肽片段,然后计算表位的倾向得分为每个基于片段的预测的残余物。次要结构和溶剂辅助功能信息(无论是预测或准确)可以被纳入到提高性能。COBEpro实现了交叉验证受试者工作特征曲线(AUC)下teristic高达0.829片段上抗原决定基的倾向得分任务的AUC为0.628残余物外延主题倾向得分任务。 3 用于线性B细胞表位预测工具建立与评价的数据库
免疫信息学[8]数据库是随着生物信息学和免疫基因组学的不断进步而逐渐发展起来的,是专门收录免疫学相关分子信息,实现数据存储、查询、分析,计算等功能的数据库。最初,与免疫相关的多肽序列、抗原分子等信息与其他生物数据一起,被收录在各类生物信息学数据库中,随着免疫学研究的发展,人们对免疫学相关分子信息的需求越来越迫切,需要单独对这些数据进行计算、分析和预测,一些研究机构开始尝试从生物信息学基础数据库中提取免疫相关的生物数据,开发集存储、查询、计算、预测以及绘图分析功能为一体的免疫学数据库。目前,网络上的免疫信息学数据库已达数十个,它们的规模大小不一,内容与侧重点也不尽相同,其中的大部分数据来源于GenBank、EBI、EMBL,供研究人员免费使用。
3.1 Bcipep:B细胞表位数据库
Bcipep[9]是各种免疫原性B细胞表位数据库,目前Bcipep数据库包含3031个条目,其中包括763免疫显性,1797免疫原性和471空的免疫原性的抗原表位,每条记录包含多肽序列、源蛋白、病原体、免疫原性、中和性、模式生物、实验方法、参考文献、抗原结构等信息,它涵盖范围广泛,如病毒、细菌、原生动物、真菌。该数据库提供了一组工具,用于分析和提取的数据,其中包括关键字搜索,肽谱分析和BLAST搜索。Bcipep称为一个完整B细胞表位数据库,已经开发了一个覆盖广泛的病原体的抗原决定簇的信息。该数据库有助于B细胞表位预测方法的研究、合成肽疫苗的设计和疾病的诊断。
4 结束语
显而易见,线性B细胞表位预测现状与人们理想预期还存在很大的差距,利用软件预测线性B细胞表位并不完全准确,还需要实验的进一步验证。为了研发更准确的预测工具,需要建立高质量的训练数据集和检验数据集,数据集的质量高低与预测工具的预测能力密切联系;另外,统一评价体系也是目前急待解决的问题。评价体系的标准化,既有助于软件开发者采用最有效的算法创建更准确的工具,又方便了使用者对工具的筛选和评价。统一评价体系首先要面临的问题是所有数据格式的统一,有了一致的数据格式,才能进行比较。在表位预测领域尚缺乏高质量的标准数据集,针对标准的数据集开发自动评价工具将是未来的发展方向。相信随着生物信息学的快速发展,线性B细胞表位计算机预测技术将会越来越成熟。
参考文献:
[1]Peters B,Sidney J, Bourne P, et al.The design and implementation of the immune epitope database and analysis resource[J].Immunogenetics,2005,57(5):326-336.
[2]吴敏毓,刘恭植.医学免疫学:第四版[M].北京:中国科学技术大学出版社,2002:1-2.
[3]吕凤林,朱锡华.人C5aR(CD88)序列结构分析及其B细胞表位预测[J].免疫学杂志,1998,14(3):153-156.
[4]Saha S,Raghava GP (2006) Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins.65:40-48.
[5] Chen J,Liu H,Yang J,Chou KC (2007) Prediction of linear B-cell epitopes using amino acid pair antigenicity scale.Amino Acids 33:423-428.
[6]El-Manzalawy Y,Dobbs D, Honavar V (2008) Predicting linear B-cell epitopesusing string kernels.J Mol Recognit 21:243-255.
[7]Sweredoski MJ,Baldi P (2009) COBEpro: a novel system for predictingcontinuous B-cell epitopes.Protein Eng Des Sel 22:113-120.
[8]Walsh R, Locarnini S. Hepatitis B precore protein: pathogenic potential and therapeutic promise[J].Yonsei Med J,2012,53(5):875-85.
[9]Saha S, Bhasin M, Raghava GP (2005) Bcipep:a database of B-cell epitopes.BMC Genomics 6:79.
[10]Roseman AM, Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[11]Yasser EL-Manzalawy, Vasant Honavar. Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
[12]Roggen EL. B-cell epitope engineering: A matter of recognizing protein features and motives[J].DDT:Technol,2008,5(2-3):e49-55.
[13]冯新港.免疫信息学原理及其应用[M].上海:上海科学技术出版社,2009,6:1-5.
[14]Alix,A. (1999) Vaccine,18,311-314 (314).
作者简介:董娇娇(1987.10-),女,吉林汪清人,硕士研究生,研究方向:生物信息学。
作者单位:东北师范大学计算机科学与信息技术学院,长春 130117