线性B细胞表位预测的机器学习方法

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:lovefish777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:生物学的新发现将极大地依赖于我们在多个维度和不同尺度下对多样化的数据进行组合和关联的分析能力,而不再仅依赖对传统领域的继续关注。在生物信息的存储、获取、联网、处理、浏览以及可视化等方面,都对理论、算法和软件的发展提出了迫切的需要,计算机科学也从生命系统中获得启示,产生了许多新概念,包括:决策树、随机森林、支持向量机、人工神经网络等等。这样的学科交叉丰富了各个相关领域,这将在未来的几十年中得到进一步发展。
  关键词:生物学;信息;支持向量机
  中图分类号:R392
  在免疫学[1]中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。
  1 抗原表位[6]的大小与相应抗体的抗原结合部位相适合
  一般情况下,一个多肽表位含5~6个氨基酸残基;一个多糖表位含5~7个单糖;一个核酸半抗原的表位含6~8个核苷酸。一个抗原表位的特异性由组成它的所有残基共同决定,但其中有些残基在与抗体结合时比其它残基起更大作用,这些残基被称为免疫显性基团。免疫应答过程中,T细胞的TCR和B细胞的BCR所识别的表位具有不同特点,分别被称为T细胞表位和B细胞表位。
  2 基于SVM的线性B细胞表位预测采用贝叶斯特征提取方法[2]
  B细胞表位的抗原-抗体之间的相互作用机制,在疾病的预防和诊治中发挥了极大的推动作用。实验方法通常是费力和耗时的,在硅片方法进行预测这些免疫原性的区域是关键的。这样的努力,已经显著以高阻碍可变性的抗原表位序列的长度和组成,使得初治建模方法难以适用。结果:分析了两个标准数据集,发现线性B细胞表位具有鲜明的残基保守性和特定位置的残留物倾向性这可能被利用在硅片表位识别中。开发了一种支持向量机(SVM)预测模型,采用贝叶斯特征提取预测多种不同的长度的线性B细胞表位。最好的SVM分类器实现了准确度为74.50%和AROC为0.84在一个独立的测试集中,并证明优于现有的线性B细胞表位预测算法。
  3 UniProt[3]
  全球蛋白质资源(Universal Protein Resource,UniProt)这个数据库是全球有关蛋白质方面信息最全面的资源库,是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。
  UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用途。
  3.1 UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt[7],它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。
  3.2 UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJ/EMBI,/GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。
  3.3 UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列,只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJ/EMBL/Geni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。
  4 机器学习方法简介
  4.1 决策树。实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维特征值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点)。
  4.2 随机森林。用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为哪一类。每一棵决策树就是一个精通于某一个窄领域的专家,这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。
  4.3 支持向量机。一种有坚实数学理论基础的小样本学习方法,支持向量机被广泛应用在统计分类和回归分析领域中,最终的决策函数只由少数的支持向量所确定,而不是样本空间的维数,避免了训练样本数量对分类速度的影响。但是经典的支持向量机给出的只是二类分类问题的解决方法,而在实际应用中,这种情况非常好,大多数都是多分类问题。   4.4 隐马尔可夫。我们知道,马尔可夫模型中每个状态对应一个可观察的输出符号,它们的关系是一一对应的,但是很多实际问题往往是复杂的,每个状态可观察到多个观察符号之一。因此,这时的马尔可夫模型的可观察的输出符号序列是状态的一个函数,也就是说该模型是由两个随机序列组成,一条是隐藏起来的状态序列,简称为隐状态序列,另一条是由该隐状态序列产生的可观察的输出符号序列。HMM在20世纪60年代末70年代初提出,是一种典型的统计方法,是一种用参数表示的、用于描述随机过程统计特征的概率模型。1970年左右,Baum等人建立起HMM的理论基础。Rabiner详细地对HMM做出了介绍,才使得各国的学者渐渐了解并熟悉该模型,进而成为了公认的研究热点。
  5 线性B细胞表位的应用
  5.1 猪带绦虫六钩蚴 TSO45-4B 抗原 FnⅢ结构域相应的线性 B 细胞表位肽免疫原性研究[4]。其目的是观察载体蛋白偶联的TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽诱导的体液免疫反应。方法:人工合成TSO45-4B抗原FnⅢ结构域2条预测表位肽,偶联钥孔血蓝蛋白免疫小鼠,采用 ELISA 法检测小鼠血清中预测表位肽特异性抗体滴度。结果:免疫小鼠血清中检测到1条预测表位肽特异性抗体,其效价达到1∶1280。结论:设计的1条TSO45-4B抗原FnⅢ结构域线性B细胞表位肽可诱导小鼠产生体液免疫反应。
  5.2 HBeAg 的 B 细胞线性表位预测及鉴定[5]。预测并鉴定乙型肝炎病毒e抗原(HBeAg)的B细胞线性表位,为乙型肝炎的诊断和治疗提供新的依据。方法采用生物信息学分析技术,利用NCBI数据库和免疫表位数据库提供的相应软件预测HBeAg的B细胞线性表位,采用人工合成法合成相应表位肽并分别将与血蓝蛋白(KLH)偶联,作为免疫原,免疫大白兔制备抗HBeAg抗原表位抗体,ELISA法鉴定抗体的特异性。结果发现了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4条新的HBeAg蛋白B细胞线性表位肽,其与KLH的偶联物作为免疫原免疫大白兔,获得特异性高效价抗体,抗体滴度大于1∶512000,ELISA 实验证实上述抗体均可与HBeAg发生特异性免疫反应。结论采用生物信息学技术成功确认了4个HBeAg蛋白B细胞线性表位肽,为深入研究HBeAg的功能和作用以及乙型肝炎的治疗提供了新依据。
  6 结束语
  线性B细胞表位的预测是用于疫苗设计的重要,开发诊断试剂,以及解释抗原-抗体相互作用在分子水平上。在近年来,随着各种组学的发展和构象的生物信息学,相关的实验数据线性B细胞表位已经被迅速地提出。建全相关数据库促进线性B细胞表位的预测发展,在这项研究中,我们总结了生物信息资源和机器学习方法的线性B细胞表位的预测。基于机器学习方法的线性B细胞表位的预测极大地降低线性B细胞表位定位的时间成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及预测性能。
  参考文献:
  [1]冯新港.免疫信息学原理及其应用[M].上海:上海科学技术出版社,2009,6:1-5.
  [2]Alix,A. (1999) Vaccine,18,311–314(314).
  [3]http://www.uniprot.org/[DB].
  [4]王媛媛,陶志勇.猪带绦虫六钩蚴TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽免疫原性研究[J].蚌埠医学院学报,2013,05.
  [5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.
  [6]黄艳新,鲍永利,李玉新.抗原表位预测的免疫信息学方法研究进展[J].中国免疫学杂志,2008,09-20.
  [7] http://www.ncbi.nlm.nih.gov/genbank/[DB].
  [8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.
  [9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.
  [10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.
  [11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
  [12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
  作者简介:刘春宇(1989.02-),男,吉林长春人,硕士研究生,研究方向:生物信息学。
  作者单位:东北师范大学计算机科学与信息技术学院,长春 130117
其他文献
摘 要:针对物资管理系统使用过程中所遇到的风险,首先设计3种可靠性策略以保证系统数据的安全性。在此基础上,设计实现了一种基于Browser/Server结构的高可靠性物资管理系统。通过系统实际运行结果分析,该系统可以有效实现物资管理以及保证系统数据安全可靠。  关键词:物资管理;数据安全;可靠性策略;Browser/Server结构  中图分类号:TM769  物资管理系统[1]是针对企业物资的入
期刊
摘 要:数字化学习与考试环境建设是岗位数字化训练建设的核心内容。利用开发工具Borland Delphi7.0开发出适用于多岗位的在线训练考试系统。采用C/S模式多层结构,使用Access数据库,在中间层采用大量的远程方法设计供客户端调用,实现训练考试过程与管理的数字化、信息化和自动化。在线岗位训练考试系统是集数据库管理、随机选题与结果分析为一体,包含系统设置、考试、实时评分等功能模块,通过TCP
期刊
摘 要:电力线通信(Power Line Communication,PLC)是指利用电力线传输数据和话音信号的一种通信方式。终端用户只需要将电力猫插上电源插座,就可以实现因特网接入。文章在介绍电力线上网的发展状况以及基本原理的基础上,重点对电力线上网在水运工程项目中应用的优缺点进行了分析。  关键词:PLC;水运工程项目;电力线上网  中图分类号:TN915.853  水运工程的建设发展已经日益
期刊
摘 要:本文从医院信息化建设的现状出发,提出了一个基于LADP应用的统一身份认证管理的单点登录解决方案。着重对SSO的认证流程以及该方案的技术实现细节作了比较深入地探讨和分析。  关键词:统一用户;单点登录;LADP  中图分类号:TP393.08  随着医院网络信息化建设的不断深入,使得网络管理特别是用户管理变得越来越复杂[1]。目前大部分应用系统都各自拥有独立的身份认证机制对用户进行授权,用户
期刊
摘 要:本文针对工业炸药在全生命周期内(包括生产、存储、运输、销售过程)存在难以实时获取数据、难以监控动态流程的问题,采用无线射频RFID及条形码技术实现对工业炸药的信息采集,并基于采集的信息对工业炸药进行识踪智能管控,构建工业炸药实时监控系统。  关键词:全生命周期;实时获取;RFID;识踪;实时监管  中图分类号:TP391.44  民爆行业是我国工业体系中的基础性产业,肩负着为国民经济建设服
期刊
摘 要:伴随着信息化技术飞速发展的同时,作为重要业务的支撑基础,IT基础设施规模亦日益强大与复杂,这给信息系统的安全、故障定位、信息监控带来了新的挑战,增加了运维管理的难度。本论文对IT设备数据处理技术介绍以及IT服务设备数据处理设计和系统的测试与分析做了描述并进行了总结与展望。  关键词:运维;监控;数据处理  中图分类号:TP315  1 绪论  1.1 课题的来源及研究背景  伴随着信息化技
期刊
摘 要:本文利用地下水数值模拟软件Visual Modflow,在详细研究某电厂周边水文地质条件的基础上,建立了研究区的地下水流动模型和地下水溶质运移模型,对电厂事故工况下泄露到地下水中轻质柴油的运移规律进行了模拟研究,就其对地下水的影响进行了分析评价。结果表明:模拟期内柴油对含水层造成了污染,并且存在超标现象,但没有对保护目标造成明显影响。结合数值模拟过程,提出了数值模拟在地下水评价应用中的一些
期刊
摘 要:文章基于CDIO工程教育模式的框架,探讨了计算机类应用型创新型人才培养模式,从培养方案、教学改革、师资建设、校企合作等方面进行了详细的阐述。  关键词:CDIO;应用创新型人才培养模式;项目实训;理实耦合  中图分类号:G642.0  我国高等工科教育的迫切任务是尽快培养与国际接轨的中国工程师,然而我国工科的教育实践中还存在不少问题,如重理论轻实践、强调个人学术能力而忽视团队协作精神、重视
期刊
摘 要:行动导向教学是一种有优势的职业教育教学活动。本文介绍了行动导向教学在《电子排版》中的具体应用,并对该教学法的应用优势进行总结和反思。  关键词:行动导向教学;电子排版;职业教育  中图分类号:TP391.12-4;G724  《电子排版》是中职学校计算机相关专业的一门必修课,通过本课程的学习,使学生明确电子排版操作的基本知识和基本思路,具有对书籍、报纸、宣传单等版面设计、素材处理、编辑排版
期刊
摘 要:运用Word的合并功能,实现与Excel电子表格的关联、数据的共享和交换,最终使Word能够调用Excel的数据,快速高效地完成《致学生家长的一封信》的制作与发送,将过去需要几个工作日才能完成的事情缩减到几个工时。  关键词:邮件合并;数据共享;快速调用  中图分类号:TP391.12  《致学生家长的一封信》(以下简称为《信》)中的“ 同学家长:”和“学生本学期学习成绩表”、“交纳费表”
期刊