基于图卷积神经网络的蛋白质与RNA结合位点图预测

来源 :吉林大学 | 被引量 : 0次 | 上传用户:placaptain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质与RNA之间的相互作用是许多细胞调节和基因表达过程的基础,同时,许多研究也已证明几乎所有的蛋白质都需要和RNA产生相互作用才能充分发挥其功能。通过分析蛋白质与RNA的相互作用方式,我们不仅能够加深对蛋白质的理解,同时还能将有效的方法加以推广,去研究更多的生物过程。目前,生物学实验和基于生物信息学的计算方法是用来预测相互作用的主要手段。生物学实验主要通过核磁共振、X射线衍射等方法来识别相互作用中的结合位点。这些方法的准确率虽然较高,但是需要耗费巨大的时间成本和实验成本,并不适用于大规模的研究。相比之下,计算方法可以通过分析不同位点间的结合模式来对相互作用做出预测。目前的计算方法主要分为序列水平的预测和单序列小片段的预测,无法对具体的氨基酸-核苷酸结合对进行预测。基于此,本文提出了以下工作:(1)鉴于目前的数据集无法满足我们的研究需要,本文使用爬虫技术构建了新的数据集。通过爬取PDB数据库上的数据,收集到了2706个蛋白质-RNA大分子复合物的结构信息。经过后续的数据处理流程,共有439个有效的蛋白质-RNA结合对用于正负样本的提取及模型的训练。(2)对于RNA序列,本文采用新的方法生成了基于3-mer短序列的词向量特征。该特征不仅包含了序列的上下文信息,还挖掘出了隐藏在序列中的依赖关系。(3)提出了基于图卷积神经网络的预测模型。对于给定的蛋白质与RNA序列,该模型可以预测出两条序列上的氨基酸-核苷酸结合对,并可基于此构建出对应的结合位点图。通过十折交叉验证的训练后,我们的模型在独立测试集上的查准率、查全率和F1-score分别为0.814、0.772和0.805。在将GCN网络更换为GAT网络后,模型的查准率、查全率和F1-score可以达到0.827、0.798和0.813。实验证明,本文提出的模型不仅可以对结合位点做出有效的预测,还为接下来的研究提供了新的方向和思路。
其他文献
随着我国GDP的快速增长,汽车逐渐走进千家万户,在汽车保有量快速扩张的同时,对4S店的售后服务也提出了更高的要求,售后水平的优略高低和维修服务满足度息息相关,因此,保持合理适当的备件库存量就显得尤为重要。基于对ABC分类法的深入研究,分析了汽车4S店备件库存目前存在的问题,对备件进行库存分类并制定相应的订货策略,建立备件库存优化模型,降低汽车4S店的库存成本,提升竞争软实力。
地幔不均一性是当今地球科学领域内的重大前沿问题,对原始不均一性起因的探讨关系到地球起源问题的基础理论。本文通过建立世界主要古老克拉通变质基性岩数据库,结合国内中条山-吕梁山野外采集样品测得的锆石U-Pb年龄及相关地球化学数据,选择合适的古老克拉通进行对比研究,继而探讨原始地球化学不均一现象及其起因,为欧阳自远团队建立的原始地球的两阶段不均一星子堆积模型提供更多成果支持。锆石U-Pb年代学研究显示,
美育是新时代中小学教育科研中的重要课题,如何将美育思想渗透校园活动中,实现全面和谐育人,促进学生个性化发展,在学校活动中将艺术与德育两者有机结合,以艺育德,陶冶学生道德情操,以艺启智,促进学生全面发展。新时代,对中小学美育提出了更高的要求,美育不是机械的,中小学美育不仅仅是传统的音乐教育、美术教育,美育具有特殊性,美育更重要的是培养学生对于人生的态度,提升学生的人生境界。一、新时代,对中小学
期刊
探地雷达(Ground Penetrating Radar,GPR)是一种基于电磁反射信息的非常适用于浅层目标探测的一种无损探测工具。常规的探地雷达大多是单极化雷达,由于采集方式的限制,只能采集到一种共极化信息,得到的信息量很有限,也很难满足某些复杂环境下工作的需求。而全极化探地雷达(Full-polarimetric Ground Penetrating Radar)既能采集到共极化信息又能采集
印度板块和欧亚板块持续不断的陆陆碰撞过程形成了全球规模最大、海拔最高的高原——青藏高原。雅鲁藏布江缝合带是大体沿雅鲁藏布江河谷分布的一条狭长的、经过强烈变形、变质的印度板块与亚洲板块碰撞的前缘结合处,被认为是新特提斯主洋盆遗迹所在,被誉为陆陆碰撞深部构造研究的天然实验室。国内外学者在雅鲁藏布江缝合带附近开展了大量科学研究,然而其下部地壳和上地幔结构仍旧存在较大争议,印度板块岩石圈的俯冲模式仍不清晰
乡村振兴战略是新时代做好"三农"工作的总抓手,产业融合是实现乡村振兴的重要途径。贵州仁怀市以茅台酒为引领,设,从实现产业、文化、生态、人才à、组°织?全面振兴的角度探索酒旅融合发展助推乡村振兴的路径,从政策、机制、资金、人才方面构建酒旅融合助推乡村振兴的保障体系,为我国西部地区城镇反哺农村,工业反哺农业,三产融合发展,县域经济助力乡村振兴,提供现实依据。
当前在我国城市化进程速度加快,城市化人口数量增多,机动车数量也逐年增多的背景下,人们出行成为一个重要的问题,越来越多的互联网公司和研究机构在出行领域投入巨大人力、物力、财力对出行路径规划和道路拥堵情况进行研究,比如百度地图,高德地图,滴滴出行等公司。目前,针对道路交通状态时空预测的研究有很多,本文使用的数据集为滴滴公司提供的2019年7月份西安市城市道路交通状态数据集。数据集存在数据量大,数据维度
网络表示学习旨在学习一种映射关系,可以将网络中的所有节点映射为低维的向量表示,从而提取到节点的特征并进行网络分析。近几年,越来越多的网络表示学习方法涌现出来,已有的方法大多数只是面向静态网络进行研究,然而,在真实网络中,网络的结构及属性通常是随时间而不断变化的。因此,如何利用网络动态变化的拓扑结构以及属性信息挖掘复杂网络随时间变化的特性,对动态网络中的节点进行表示学习,以保证所学节点表示能够刻画网
防碰撞预警系统作为高级驾驶辅助系统的重要组成部分,主要用于协助驾驶员通过预警潜在的碰撞情形来减小车辆碰撞的危险。通过识别技术或通信的方式检测周围车辆的相对距离和速度,可以实时判断车辆是否处于安全状态,并将预警信息通知给驾驶员,驾驶员根据预警信息采取相应的措施,确保车辆的安全行驶。目前的前向碰撞预警算法已经相对比较完善,而交叉路口由于其复杂的结构、不同的场景和众多的数量,一直以来都是碰撞预警系统研究
长链非编码RNA(long non-coding RNA,lnc RNAs)是一种重要的非编码RNA,在人类基因转录调控、细胞生长、分化、繁殖等生命活动中起着重要的作用。同时,lnc RNA的保守性相对较低,使得其功能研究变得更加困难。现阶段,lnc RNA的表达性差异分析和lnc RNA与蛋白质的共表达分析可以用来预测lnc RNA的功能,但传统的生物实验方法过于昂贵和耗时,且往往需要更为严格的