基于BERT预训练模型的功能肽预测问题特征提取算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:superzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,大量蛋白质序列的出现给研究人员带来了新的机遇和挑战,将计算机科学引入生物信息学领域成为一种必然,这种新颖的生物信息学研究方法给“数据”带来了无限可能。功能肽在人体生命活动的调节中发挥重要作用,不同类型的功能肽的预测问题已经成为生物信息学中的热点研究问题之一。人类白细胞抗原(HLA)是一种存在于大多数人体细胞表面的分子,在免疫系统抵抗外来细胞入侵和调节免疫反应中发挥重要作用,T细胞抗原受体(TCR)可以识别癌细胞表面的HLA-肽复合物,并利用有毒的T淋巴细胞破坏这些癌细胞,因此准确预测HLA-I等位基因和肿瘤抗原肽的结合会促进癌症免疫疗法的快速发展。本文提出了一种基于BERT预训练语言模型的功能肽的特征提取算法。针对目前I类HLA(HLA-I)分子与抗原肽的结合预测研究中,氨基酸序列的特征构造算法依赖传统序列评分函数而导致的特征单一问题,为突破使用经典机器学习算法构造氨基酸序列特征的局限性,本研究中将自然语言处理领域的特征构造技术迁移至功能肽的预测问题。类似于文本语言是由固定字母表所定义的,蛋白质序列通常由20种不同的常见氨基酸组合形成,从组成和信息完备性的角度来看,蛋白质语言和自然语言间存在某种共性。本文中,将功能肽的氨基酸序列视作自然语言的句子,将每个氨基酸视作自然语言的字母,利用蛋白质语言和自然语言间的共性,从多个维度提取功能肽序列的潜在特征,从而创新功能肽预测问题的研究思路。本文以HLA-I等位基因与肿瘤抗原肽的结合预测任务为例,基于预测模型的不同适用范围角度,提出了等位基因泛特异性模型Prot HLAI和等位基因特异性模型HLAB。等位基因泛特异性模型Prot HLAI的特征提取模块采用了Prot Bert模型结合Bi LSTM模型和注意力机制的级联网络结构,实验中使用了26个独立的子数据集,对Prot HLAI和其它八种预测工具的性能进行对比。结果显示,本算法在其中的16个子数据集上均有最优的性能表现,且在所有预测工具中是性能表现最稳定的。等位基因特异性模型HLAB采用了Prot Bert模型结合Bi LSTM模型的级联网络结构构造特征提取模块,HLAB模型覆盖了共360个不同的特异性分类任务,与其他八种预测工具进行性能对比的结果显示,HLAB模型可以在90%的预测任务中取得最优的分类性能。Prot HLAI模型和HLAB模型的实验结果证明:1.本文提出的基于BERT的功能肽特征提取算法可以在不同的预测任务中达到该问题领域最先进的性能。2.BERT结合其他模型的级联特征提取模型是可以更有效的对BERT模型提取的特征进一步“加工”,从而得到更契合实际下游任务的特征提取算法。
其他文献
报纸
水稻作为全球最主要的食品来源之一,具有很高的经济价值。稻瘟病是我国水稻三大病害之一,是一种极为严重的真菌性病害,其致病成因是稻瘟菌侵染。稻瘟菌不仅对水稻产生危害,它还能感染小麦、大麦、小米等其他作物,对全球作物产量造成严重危害,是一种十分重要的植物病原体。当前,真菌-植物互作领域的研究虽然取得了一定的进展,但是由于真菌病原体在侵染植物的过程中包含抑制植物免疫、破坏植物细胞等多个生物过程,为理解复杂
学位
网购已经普及全球,在网购平台上给用户推荐个性化的商品列表,在促进商品销售、满足用户购物需求等方面具有重大意义。最大化长期收益是电商平台的目标,然而,传统的推荐算法和基于深度学习的推荐算法大都从解决数据稀疏问题出发,并没有对长期奖励建模。在电商推荐场景中,推荐引擎和用户构成了彼此的环境模型,二者的交互过程是时序相关的决策序列,与马尔可夫决策过程十分契合。强化学习以马尔可夫决策为理论基础,无疑是当下电
学位
当前环境下,基于业财融合视角开展财务信息化建设活动具有一定的必要性,有利于促进集团企业财务管理转型,提高财务管理效率,强化集团企业价值创造能力和市场竞争力。然而从集团企业财务信息化建设情况来看,普遍存在一些不足之处,导致财务信息化建设效果不甚理想,业财融合程度不深,无法发挥应有作用。本文探讨了业财融合视角下集团企业财务信息化建设的意义,简要分析集团企业财务信息化建设中存在的问题,并提出行之有效的优
期刊
随着互联网技术的进步,图像库逐渐扩充完善。图像处理成为热门的研究领域,而图像检索作为图像处理的重点部分获得了越来越多的关注。细粒度图像检索是近年来的研究热点。它吸取了传统图像检索的研究经验,在一开始的多数研究中就越过了复杂专业且不能获得优异检索效果的手工特征时代,大多数的研究都使用卷积得到的深度特征。细粒度图像各个类别属于一个元类的子类,这样的特性为检索带来了更高的难度。经典的卷积神经网络损失函数
学位
针对剧烈干湿交替条件下高海拔石灰石排土场边坡安全稳定性问题,采用试验、理论分析和数值计算相结合的方式对石灰石排土场边坡安全稳定性进行研究,建立剧烈干湿交替条件下石灰石排土场边坡数值计算模型,基于数值计算结果,综合评价石灰石排土场边坡的安全稳定性,为高海拔矿区露采石灰石排土场边坡滑坡灾害风险预警与防控提供理论和技术支持。(1)基于三轴剪切试验数据、非饱和土有效应力方程与抗剪强度方程,将基质吸力和总粘
学位
城镇燃气管网作为易燃易爆高危场所,工艺流程复杂,管网设施的腐蚀泄漏风险高,影响范围广,高效及时巡护尤为重要。近几年人工智能、物联网、移动通讯等技术飞速发展,本文对巡检系统、无人机、人工智能、车犬联动、AI识别、伴行光纤等巡护技术深入研究并成功应用,实现燃气设施高效巡查、高精准检测,为安全管理、智慧燃气发展提供有力的技术支撑。
会议
报纸
报纸
为了提高平庄六家煤矿抵御外因火灾的抗灾能力,开展六家矿预设火灾的抗灾预案仿真研究。针对火灾后的风流紊乱使有毒有害烟气在井下出现非控制性蔓延的问题,采用基础理论分析、管道相似实验、现场实测数据、物理仿真模拟相结合的方法,对防止火灾时期风流紊乱的发生,防止烟流在井下巷道中发生非控制性蔓延具有重要意义。对于单一管道实验,通过改变巷道倾角或者风机风量,来模拟下行通风火灾主干风路的风流逆退情况,主干风路内不
学位