基于深度学习理论的HLA亲和多肽与T细胞表位预测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:flangxisi888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类白细胞抗原(Human Leukocytes Antigen,HLA)是位于人体细胞表面的主要组织相容性复合体(Major Histocompatibility Complex,MHC),其可与内源或外源多肽片段发生特异性结合,经抗原提呈途径运输至细胞表面供T细胞表面受体识别,从而引发人体的特异性免疫应答。因此,HLA亲和多肽和T细胞表位预测一直是药物设计和生物信息学领域的重要研究内容。近年来,随着HLA亲和多肽和T细胞表位测定技术以及相关数据库容量的飞速发展,传统机器学习方法已难以满足HLA亲和多肽和T细胞表位预测的发展需求。为此,论文采用深度学习中最具代表性的卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)为主要研究方法,分别就HLA-I、HLA-II亲和多肽以及T细胞表位预测进行了系统的探索性研究,主要研究内容与结果如下:(1)HLA-I亲和多肽预测研究。论文以HLA-I分子的34个接触残基和亲和多肽氨基酸序列为输入信息,分别建立了泛特异性的CNN和RNN预测模型。在模型训练过程中,论文采用不同抽样权重来处理不平衡的训练集样本,同时采用多种类型Dropout以及早停技术进行过拟合控制。研究结果显示:RNN预测模型取得了优于CNN模型以及文献报道的6个等位基因特异性模型、4个泛特异性模型和2个基于Ensembel的模型的预测结果,其对训练和验证集的预测准确性和AUC值分别为0.86、0.96和0.85、0.93,且对不同长度亲和多肽表现出了较高的预测性能。对于外部预测基准数据集中的64个子集,RNN模型对其中21个子集取得了最高的AUC值。(2)HLA-II亲和多肽预测研究。论文以HLA-II分子α链31个接触残基、β链15个接触残基和亲和多肽氨基酸序列为输入信息,分别建立了HLA-II亲和多肽的CNN和RNN预测模型。研究结果显示:论文构建的泛特异性模型的外部预测准确性和AUC值分别为0.80和0.89(CNN模型)以及0.80和0.88(RNN模型)。与已有研究相比,论文所建的CNN和RNN模型是目前已知的包含HLA-II亚型种类最多的泛特异性模型,且模型具有网络架构简单,可直接预测不同长度多肽样本,无需数据预处理等操作等特点。(3)T细胞表位预测研究。以T细胞表位氨基酸序列为输入信息,分别建立了泛特异性CNN和RNN模型以及3个物种特异性模型。研究结果显示:基于CNN和RNN的泛特异性模型的预测结果均不理想,而基于流感病毒、结核分枝杆菌和小白鼠表位数据建立的物种特异性CNN和RNN模型均取得了较优的预测结果。其中,3个物种特异性CNN模型的外部预测准确性和AUC值依次为0.82、0.89;0.84、0.91;0.79、0.83;3个物种特异性RNN模型的外部预测准确性和AUC值依次为0.78、0.87;0.78、0.84;0.79、0.84。总的来说,论文采用深度学习理论方法对HLA-I、HLA-II亲和多肽和T细胞表位预测进行了探索性研究,并取得了较为满意的研究结果。与传统预测模型相比,论文构建的CNN和RNN模型具有特征自动提取与筛选、模型构架简单易于实现等诸多特点,同时可实现对不同长度多肽/表位的准确预测。相关研究成果可为T细胞表位疫苗研发提供重要的理论参考依据。
其他文献
伴随着经济的快速发展以及城市人口的不断增加,城市生活垃圾量急剧增加。同时,在城市空间区域不断扩张的趋势下,城市生活垃圾(Municipal solid waste,MSW)的产生源头越来越分散。这些因素导致对MSW的管理变得更为复杂,并给城市环卫部门和垃圾清运公司造成巨大压力,MSW管理也因此受到政府和城市居民的高度关注。在MSW管理的众多环节中,MSW收运是连接垃圾产生源头和终端处理设施的中间桥
在我国城镇化水平逐步提升的背景下,房地产行业进入了白银时代。在成本不断上涨的基础上,建筑施工企业在竞争中面临着极大的生存压力。在经营成本中,建筑施工企业的采购成本直接占到项目施工全周期建造成本的一半以上。显而易见,采购管理水平的高低已经成为项目建设过程中影响工程建造成本的主要因素。信息技术的快速发展助推了采购模式的转型与升级。在信息技术的助力下,国有施工单位也开始将集中采购作为提质增效的主要研究方
随着计算机理论和技术的飞速发展,自然语言处理在日常生活以及学术研究中都变得越来越重要,计算词汇相似度就是其中的一个重要方面。词汇相似度计算的目标是对一对词或概念在语义上的相似程度进行量化。词汇相似度可以应用到很多重要的领域,比如机器翻译,检索系统,也可以在智能问答系统中发挥作用。本文专注于英语词汇相似度计算模型的研究。从已有研究中可以发现,基于知识(比如作为常用的知识库或本体的WordNet)的词
角蛋白在自然界中来源广泛,存在于动物的毛发、角、指甲、爪、喙等。角蛋白生物材料因优良的生物活性和生物相容性,已经广泛被应用于止血、创面修复、药物递送等多种生物医学领域,因此开发高效、快速的角蛋白提取方法既可提高废弃蛋白质的利用效率,又能有效促进角蛋白在生物医药领域的发展。目前,常见的人发中提取角蛋白的方法包括化学法、物理法和酶法等,普遍存在提取时间长的问题,其中蒸汽闪爆法虽提取时间短,但不易广泛推
并行机调度是实际生产调度问题的一种典型抽象模型,通常被认为是NP-hard问题。问题规模较大时,在有限的时间内精确求解并行机调度问题非常困难。布谷鸟搜索算法是一种新颖的启发式智能优化算法,由于其被证明具有全局收敛的特征,已经被广泛应用于求解多种困难的组合优化和生产调度问题。本文以布谷鸟搜索算法为主体框架,设计编码方案和改进算法流程,提出一种基于双向排序编码方案的混合布谷鸟搜索算法,该算法被用于最小
随着我国在航空航天领域的飞速发展,对高性能风洞的需求也在日益增加。模型支撑装置作为风洞试验的关键设备,其性能的优良直接影响到试验结果的准确度和可信度。由于工作条件复杂、外部负载大、要求精度高等客观原因的存在,导致误差问题一直是模型支撑装置研制的难点。本文针对某风洞模型支撑装置无法满足试验需求的现状,研制了一套五自由度串并混联机构,并对其运动学、动力学、静态误差及弹性变形误差等方面进行研究。本文在实
近年来,随着政府对装配式建筑建造与研究的大力推广,国内开展了住宅工业化的新阶段。与上世纪建国后的住宅工业化有所不同,新型住宅工业化强调住宅质量和性能的提升、建筑建造由粗放式走向集约式的转型,最终和全球可持续发展的趋势同步,实现绿色生态的生活生产环境。国内目前推广的工业化结构体系以混凝土结构为主,而抗震性能佳、结构自重小、在美国日本等发达国家广泛应用的钢结构,还未得到建造主流市场的认可,基本依靠国家
近年来,无线胶囊内窥镜(Wireless Capsule Endoscopy,WCE)针对小肠疾病的检查,克服了传统消化道内窥镜的不足,凭借其无痛无创等特点,在临床上消化道、特别是小肠道检测中得到了广泛的应用,并成为消化道检测的首选设备。然而,WCE所拍摄的影像数据量庞大,使得临床阅片工作成为一项任务量巨大、且极易造成对病灶的漏检与误检的过程。针对该问题,研究出一种从WCE影像序列中自动化检测小肠
快速城镇化致使城市人口快速增长,重庆因其地貌复杂,建设用地紧缺,山水分割城区,居住建筑密集,建筑布局不协调,地表通风阻力系数大,住区室外热环境愈发恶劣。为研究底层架空住区热环境的影响机理,采用现场实测与数值模拟相结合的方式,针对重庆底层架空住区,开展以下几方面研究。首先,对重庆主城9个中心城区住区底层架空现状进行调研,优选重庆某典型住区作为实测对象,实测2019年7月行人高度处气温、相对湿度、风速
无人机具有部署灵活、经济实惠等特点,在通信领域受到了广泛关注。无人机用作空中基站可以提高视距(Line-of Sight,LOS)通信概率,扩大地面基站的覆盖范围,在自然灾害或应急事件发生时,可提供快速、灵活、可靠的无线通信服务。将无人机与物联网技术、移动边缘技术结合,能进一步提升系统适应性,但无人机电池容量、计算资源、飞行速度有限,如何对无人机进行合理的轨迹规划和资源分配面临挑战。本文聚焦研究无