基于深度学习对蛋白质序列分类的研究

来源 :广州大学 | 被引量 : 0次 | 上传用户:pioneerp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在不同的真核细胞内执行各种各样的功能。因此,蛋白质序列分类预测是计算生物学领域研究比较深入的问题,了解蛋白质功能的重要性已经引起了研究者们对提高蛋白质分类预测能力的关注。随着多种计算方法的出现,提高蛋白质分类的预测效率已成为人们关注的焦点。为了解决这个问题,有两种比较有效的解决方案:寻找强大最优的属性集和采用强大的预测神经网络模型工作。例如,在过去,一些生物信息学研究人员使用具有强特征集的机器学习技术,如伪氨基酸组成、位置特定得分矩阵(PSSM)和生化特性(AAIndex)、PseAAC等。本文主要重点研究了利用强特征集和深度神经网络的准确率高,成本低,研究周期短的优势,通过提出一种新的蛋白质分类预测方法来进一步提高性能。1、提出一种基于随机森林分类器模型的分类预测方法。在预测G蛋白偶联受体(GPCRs)序列的分类准确率时,采用CTDC提取样本特征,MRMD2.0降维方法剔除冗余特征,随机森林(RF)作为分类器建立的分类模型。模型中对不同的提取特征方法、不同的降维方法、不同的分类器以及不同特征在序列的预测上都做了对比实验,最终在GPCRs和nonGPCRs蛋白质序列的分类预测上,与前人的实验结果相比,本文得出的可视化的二分类图中正负样本有明显的分界线,而前人二分类图中正负样本并未有明显分界线,故而说明该模型在样本分类预测上取得了一定的突破。2、提出一种基于深度神经网络模型的分类预测方法。本文采用深度神经网络模型,首先使用188D特异性蛋白提取方法提取非囊泡转运蛋白序列特征,再使用降维方法MRMD,将188维蛋白特征过滤为39维,剔除冗余特征;使用smote方法平衡正负数据集,划分训练测试集。最后将训练集放入搭建好的神经网络模型进行机器学习,反向传播优化参数得到更为优化的模型,预测准确率大大提升,在表格4-2分类预测的效果图中可以看到已有模型达到了召回率接近86%,准确率71%的效果。
其他文献
本文在双层环形桁架的基础上,结合张拉整体结构“质量小、刚度大”的优点,对双层环形桁架结构进行了设计。通过杆索替换的方法来达到结构高刚度,轻质量的要求。基于遗传算法优化,选取新型索杆式环形桁架可展天线的结构参数,并根据新型索杆式环形桁架的展开原理设计展开机构。然后对新型环形桁架结构的索网进行构型设计和预应力优化。最后,根据机构设计方案,研制样机并对样机进行展收和刚度试验,验证理论分析可行性,具体内容
高性能超导线是超导强磁场技术中的关键,Nb3Al是近年来发展起来的高场磁体材料。与Nb3Sn相比,Nb3Al超导转变温度(Tc)为19.3 K;具有更高的上临界场Hc2和高场临界电流密度Jc及优良的应力-应变特性,因此被认为是高场超导磁体的理想选择,在ITER、高能加速器和NMR等方面有着巨大应用潜力。未来伴随聚变能示范堆和高能粒子加速器发展,将不断提出对超导线材性能更高需求。Nb3Al超导线的电
随着世界工业化进程不断加快,人类社会对能源需求也在急剧增加。目前,全球绝大部分能源消耗都来源于化石能源,而这些化石能源过度开发带来了能源危机和环境污染两大问题。开发和利用清洁的可再生能源是解决这两个问题的有效途径。光电化学分解水制氢技术可以将源源不断的太阳能转变为清洁可存储的氢能,所以受到了人们极大的关注。光催化技术是利用太阳能将有机污染物降解为无机小分子,可以用来处理污水,是一种廉价且对环境无污
褐飞虱是水稻最具破坏性的害虫之一,研究褐飞虱的致害机理,寻找新的防控褐飞虱的靶标基因及其探究其功能对于褐飞虱的防治具有重要意义。本研究从实验室已成功克隆的褐飞虱基因Nl SCBP1入手,利用生物信息学及基因表达技术分析了该基因在不同发育时期和雌雄两性之间的表达;采用RNAi技术分析了该基因与性腺发育的关系;采用酵母双杂交技术通过筛选褐飞虱c DNA文库,进行了该基因互作蛋白的筛选;利用荧光素酶互补
自激光器问世以来,非线性光学一直是一个广泛的研究领域,它带来了许多引人入胜的效应和应用。有着巨大潜能的低维半导体材料如超晶格、量子阱、量子线、量子点等,因为有着阈值功率低,响应速率快和非线性光学系数明显等的优点而不断被研究。同时,人们追求精确度更高,响应更快,更耐用、更稳定和结构体积更微小的半导体器件。那么继续不断追求发掘非线性光学相关的现象理论和追求更先进技术应用正符合人们的期望。随着纳米加工技
在大数据背景下,互联网和物联网快速兴起,数据规模迅速扩大,数据呈现爆炸性增长趋势,机械大数据也随之兴起。机械大数据不仅具有大数据的共性,更有本领域的特性:大容量,多样性,时效性。在各种机械装置中,滚动轴承应用最广泛,但其承受冲击的能力差,易出现故障。滚动轴承一旦被破坏,必然会导致机组瘫痪乃至出现重大经济损失,因此对滚动轴承故障发生进行实时诊断具有重要现实意义。本文对滚动轴承在匀速运行下产生的非平稳
可再生能源风能已成为开发和应用最为广泛的新能源之一。风电叶片作为风能利用的核心部件,目前多由玻璃纤维增强复合材料热压而成,在制造、运输、运行中可能会产生不同程度的损伤,进而会引发重大安全事故。叶片型式试验则是确保叶片安全的重要措施,本文针对风电叶片型式试验中采用光纤光栅传感器进行应变监测系统设计,对传感器的智能布设、数据存储管理和数据可视化等展开研究。论文主要研究内容包括:第一,梳理风电叶片型式试
自无阀压电泵的概念被提出以来,因其结构简单、可微型化、集成化、多样化、以及仅通过改变结构的设计,就可引导流体实现宏观上单向流动等众多优势,引起了广大学者的关注,并投入大量人力、物力针对各种应用场合对无阀压电泵展开研究。目前无阀压电泵可应用场合有:航空航天领域上的燃料供给或液体输送装置、微型系统中的液体冷却装置、医疗生物中液体输送、化学化工中微量液体输送。其中涉及医疗输送场合中,例如血液与细胞的输送
随着国内工业和经济的发展,并联机器人技术日益成熟。相比串联机器人负载轻、存在累积误差的缺陷,并联机器人因其高速加工、无累积误差、重负载等特性被广泛应用于生产线分拣、装配及车床等加工工况。国内对并联机器人的研究较晚,整体技术尚未达到世界顶级水平,为缩小并联机器人与国外在工业领域上的差距,加强对国内并联机器人核心技术的研发显得尤为重要。轨迹规划作为并联机器人的底层算法,研究其原理及在控制系统上的实现对
近些年,随着移动互联网用户数量不断增加以及移动网络规模不断壮大,使得我们对数据传输速度及流量需求越来越高。然而,用于移动通信的无线频谱资源却是有限的,无线频谱资源的稀缺或将成为移动通信的瓶颈。目前人们提出了D2D(Device-to-Device)通信可以有效解决这个问题。而D2D通信技术设计面临的问题之一是如何将具有不同代价的资源块最优地分配到动态通信网络中的设备上,以最小代价实现资源块的重用。