论文部分内容阅读
摘 要:生物学的新发现将极大地依赖于我们在多个维度和不同尺度下对多样化的数据进行组合和关联的分析能力,而不再仅依赖对传统领域的继续关注。在生物信息的存储、获取、联网、处理、浏览以及可视化等方面,都对理论、算法和软件的发展提出了迫切的需要,计算机科学也从生命系统中获得启示,产生了许多新概念,包括:决策树、随机森林、支持向量机、人工神经网络等等。这样的学科交叉丰富了各个相关领域,这将在未来的几十年中得到进一步发展。
关键词:生物学;信息;支持向量机
中图分类号:R392
在免疫学[1]中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。
1 抗原表位[6]的大小与相应抗体的抗原结合部位相适合
一般情况下,一个多肽表位含5~6个氨基酸残基;一个多糖表位含5~7个单糖;一个核酸半抗原的表位含6~8个核苷酸。一个抗原表位的特异性由组成它的所有残基共同决定,但其中有些残基在与抗体结合时比其它残基起更大作用,这些残基被称为免疫显性基团。免疫应答过程中,T细胞的TCR和B细胞的BCR所识别的表位具有不同特点,分别被称为T细胞表位和B细胞表位。
2 基于SVM的线性B细胞表位预测采用贝叶斯特征提取方法[2]
B细胞表位的抗原-抗体之间的相互作用机制,在疾病的预防和诊治中发挥了极大的推动作用。实验方法通常是费力和耗时的,在硅片方法进行预测这些免疫原性的区域是关键的。这样的努力,已经显著以高阻碍可变性的抗原表位序列的长度和组成,使得初治建模方法难以适用。结果:分析了两个标准数据集,发现线性B细胞表位具有鲜明的残基保守性和特定位置的残留物倾向性这可能被利用在硅片表位识别中。开发了一种支持向量机(SVM)预测模型,采用贝叶斯特征提取预测多种不同的长度的线性B细胞表位。最好的SVM分类器实现了准确度为74.50%和AROC为0.84在一个独立的测试集中,并证明优于现有的线性B细胞表位预测算法。
3 UniProt[3]
全球蛋白质资源(Universal Protein Resource,UniProt)这个数据库是全球有关蛋白质方面信息最全面的资源库,是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。
UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用途。
3.1 UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt[7],它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。
3.2 UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJ/EMBI,/GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。
3.3 UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列,只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJ/EMBL/Geni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。
4 机器学习方法简介
4.1 决策树。实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维特征值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点)。
4.2 随机森林。用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为哪一类。每一棵决策树就是一个精通于某一个窄领域的专家,这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。
4.3 支持向量机。一种有坚实数学理论基础的小样本学习方法,支持向量机被广泛应用在统计分类和回归分析领域中,最终的决策函数只由少数的支持向量所确定,而不是样本空间的维数,避免了训练样本数量对分类速度的影响。但是经典的支持向量机给出的只是二类分类问题的解决方法,而在实际应用中,这种情况非常好,大多数都是多分类问题。 4.4 隐马尔可夫。我们知道,马尔可夫模型中每个状态对应一个可观察的输出符号,它们的关系是一一对应的,但是很多实际问题往往是复杂的,每个状态可观察到多个观察符号之一。因此,这时的马尔可夫模型的可观察的输出符号序列是状态的一个函数,也就是说该模型是由两个随机序列组成,一条是隐藏起来的状态序列,简称为隐状态序列,另一条是由该隐状态序列产生的可观察的输出符号序列。HMM在20世纪60年代末70年代初提出,是一种典型的统计方法,是一种用参数表示的、用于描述随机过程统计特征的概率模型。1970年左右,Baum等人建立起HMM的理论基础。Rabiner详细地对HMM做出了介绍,才使得各国的学者渐渐了解并熟悉该模型,进而成为了公认的研究热点。
5 线性B细胞表位的应用
5.1 猪带绦虫六钩蚴 TSO45-4B 抗原 FnⅢ结构域相应的线性 B 细胞表位肽免疫原性研究[4]。其目的是观察载体蛋白偶联的TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽诱导的体液免疫反应。方法:人工合成TSO45-4B抗原FnⅢ结构域2条预测表位肽,偶联钥孔血蓝蛋白免疫小鼠,采用 ELISA 法检测小鼠血清中预测表位肽特异性抗体滴度。结果:免疫小鼠血清中检测到1条预测表位肽特异性抗体,其效价达到1∶1280。结论:设计的1条TSO45-4B抗原FnⅢ结构域线性B细胞表位肽可诱导小鼠产生体液免疫反应。
5.2 HBeAg 的 B 细胞线性表位预测及鉴定[5]。预测并鉴定乙型肝炎病毒e抗原(HBeAg)的B细胞线性表位,为乙型肝炎的诊断和治疗提供新的依据。方法采用生物信息学分析技术,利用NCBI数据库和免疫表位数据库提供的相应软件预测HBeAg的B细胞线性表位,采用人工合成法合成相应表位肽并分别将与血蓝蛋白(KLH)偶联,作为免疫原,免疫大白兔制备抗HBeAg抗原表位抗体,ELISA法鉴定抗体的特异性。结果发现了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4条新的HBeAg蛋白B细胞线性表位肽,其与KLH的偶联物作为免疫原免疫大白兔,获得特异性高效价抗体,抗体滴度大于1∶512000,ELISA 实验证实上述抗体均可与HBeAg发生特异性免疫反应。结论采用生物信息学技术成功确认了4个HBeAg蛋白B细胞线性表位肽,为深入研究HBeAg的功能和作用以及乙型肝炎的治疗提供了新依据。
6 结束语
线性B细胞表位的预测是用于疫苗设计的重要,开发诊断试剂,以及解释抗原-抗体相互作用在分子水平上。在近年来,随着各种组学的发展和构象的生物信息学,相关的实验数据线性B细胞表位已经被迅速地提出。建全相关数据库促进线性B细胞表位的预测发展,在这项研究中,我们总结了生物信息资源和机器学习方法的线性B细胞表位的预测。基于机器学习方法的线性B细胞表位的预测极大地降低线性B细胞表位定位的时间成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及预测性能。
参考文献:
[1]冯新港.免疫信息学原理及其应用[M].上海:上海科学技术出版社,2009,6:1-5.
[2]Alix,A. (1999) Vaccine,18,311–314(314).
[3]http://www.uniprot.org/[DB].
[4]王媛媛,陶志勇.猪带绦虫六钩蚴TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽免疫原性研究[J].蚌埠医学院学报,2013,05.
[5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.
[6]黄艳新,鲍永利,李玉新.抗原表位预测的免疫信息学方法研究进展[J].中国免疫学杂志,2008,09-20.
[7] http://www.ncbi.nlm.nih.gov/genbank/[DB].
[8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.
[9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.
[10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.
[11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
作者简介:刘春宇(1989.02-),男,吉林长春人,硕士研究生,研究方向:生物信息学。
作者单位:东北师范大学计算机科学与信息技术学院,长春 130117
关键词:生物学;信息;支持向量机
中图分类号:R392
在免疫学[1]中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。
1 抗原表位[6]的大小与相应抗体的抗原结合部位相适合
一般情况下,一个多肽表位含5~6个氨基酸残基;一个多糖表位含5~7个单糖;一个核酸半抗原的表位含6~8个核苷酸。一个抗原表位的特异性由组成它的所有残基共同决定,但其中有些残基在与抗体结合时比其它残基起更大作用,这些残基被称为免疫显性基团。免疫应答过程中,T细胞的TCR和B细胞的BCR所识别的表位具有不同特点,分别被称为T细胞表位和B细胞表位。
2 基于SVM的线性B细胞表位预测采用贝叶斯特征提取方法[2]
B细胞表位的抗原-抗体之间的相互作用机制,在疾病的预防和诊治中发挥了极大的推动作用。实验方法通常是费力和耗时的,在硅片方法进行预测这些免疫原性的区域是关键的。这样的努力,已经显著以高阻碍可变性的抗原表位序列的长度和组成,使得初治建模方法难以适用。结果:分析了两个标准数据集,发现线性B细胞表位具有鲜明的残基保守性和特定位置的残留物倾向性这可能被利用在硅片表位识别中。开发了一种支持向量机(SVM)预测模型,采用贝叶斯特征提取预测多种不同的长度的线性B细胞表位。最好的SVM分类器实现了准确度为74.50%和AROC为0.84在一个独立的测试集中,并证明优于现有的线性B细胞表位预测算法。
3 UniProt[3]
全球蛋白质资源(Universal Protein Resource,UniProt)这个数据库是全球有关蛋白质方面信息最全面的资源库,是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。
UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用途。
3.1 UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt[7],它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。
3.2 UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJ/EMBI,/GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。
3.3 UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列,只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJ/EMBL/Geni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。
4 机器学习方法简介
4.1 决策树。实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维特征值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点)。
4.2 随机森林。用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为哪一类。每一棵决策树就是一个精通于某一个窄领域的专家,这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。
4.3 支持向量机。一种有坚实数学理论基础的小样本学习方法,支持向量机被广泛应用在统计分类和回归分析领域中,最终的决策函数只由少数的支持向量所确定,而不是样本空间的维数,避免了训练样本数量对分类速度的影响。但是经典的支持向量机给出的只是二类分类问题的解决方法,而在实际应用中,这种情况非常好,大多数都是多分类问题。 4.4 隐马尔可夫。我们知道,马尔可夫模型中每个状态对应一个可观察的输出符号,它们的关系是一一对应的,但是很多实际问题往往是复杂的,每个状态可观察到多个观察符号之一。因此,这时的马尔可夫模型的可观察的输出符号序列是状态的一个函数,也就是说该模型是由两个随机序列组成,一条是隐藏起来的状态序列,简称为隐状态序列,另一条是由该隐状态序列产生的可观察的输出符号序列。HMM在20世纪60年代末70年代初提出,是一种典型的统计方法,是一种用参数表示的、用于描述随机过程统计特征的概率模型。1970年左右,Baum等人建立起HMM的理论基础。Rabiner详细地对HMM做出了介绍,才使得各国的学者渐渐了解并熟悉该模型,进而成为了公认的研究热点。
5 线性B细胞表位的应用
5.1 猪带绦虫六钩蚴 TSO45-4B 抗原 FnⅢ结构域相应的线性 B 细胞表位肽免疫原性研究[4]。其目的是观察载体蛋白偶联的TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽诱导的体液免疫反应。方法:人工合成TSO45-4B抗原FnⅢ结构域2条预测表位肽,偶联钥孔血蓝蛋白免疫小鼠,采用 ELISA 法检测小鼠血清中预测表位肽特异性抗体滴度。结果:免疫小鼠血清中检测到1条预测表位肽特异性抗体,其效价达到1∶1280。结论:设计的1条TSO45-4B抗原FnⅢ结构域线性B细胞表位肽可诱导小鼠产生体液免疫反应。
5.2 HBeAg 的 B 细胞线性表位预测及鉴定[5]。预测并鉴定乙型肝炎病毒e抗原(HBeAg)的B细胞线性表位,为乙型肝炎的诊断和治疗提供新的依据。方法采用生物信息学分析技术,利用NCBI数据库和免疫表位数据库提供的相应软件预测HBeAg的B细胞线性表位,采用人工合成法合成相应表位肽并分别将与血蓝蛋白(KLH)偶联,作为免疫原,免疫大白兔制备抗HBeAg抗原表位抗体,ELISA法鉴定抗体的特异性。结果发现了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4条新的HBeAg蛋白B细胞线性表位肽,其与KLH的偶联物作为免疫原免疫大白兔,获得特异性高效价抗体,抗体滴度大于1∶512000,ELISA 实验证实上述抗体均可与HBeAg发生特异性免疫反应。结论采用生物信息学技术成功确认了4个HBeAg蛋白B细胞线性表位肽,为深入研究HBeAg的功能和作用以及乙型肝炎的治疗提供了新依据。
6 结束语
线性B细胞表位的预测是用于疫苗设计的重要,开发诊断试剂,以及解释抗原-抗体相互作用在分子水平上。在近年来,随着各种组学的发展和构象的生物信息学,相关的实验数据线性B细胞表位已经被迅速地提出。建全相关数据库促进线性B细胞表位的预测发展,在这项研究中,我们总结了生物信息资源和机器学习方法的线性B细胞表位的预测。基于机器学习方法的线性B细胞表位的预测极大地降低线性B细胞表位定位的时间成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及预测性能。
参考文献:
[1]冯新港.免疫信息学原理及其应用[M].上海:上海科学技术出版社,2009,6:1-5.
[2]Alix,A. (1999) Vaccine,18,311–314(314).
[3]http://www.uniprot.org/[DB].
[4]王媛媛,陶志勇.猪带绦虫六钩蚴TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽免疫原性研究[J].蚌埠医学院学报,2013,05.
[5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.
[6]黄艳新,鲍永利,李玉新.抗原表位预测的免疫信息学方法研究进展[J].中国免疫学杂志,2008,09-20.
[7] http://www.ncbi.nlm.nih.gov/genbank/[DB].
[8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.
[9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.
[10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.
[11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
作者简介:刘春宇(1989.02-),男,吉林长春人,硕士研究生,研究方向:生物信息学。
作者单位:东北师范大学计算机科学与信息技术学院,长春 130117