采用深度学习的植物lncRNA-蛋白质相互作用预测

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zjlzjl943
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
植物长非编码RNA(lncRNA)主要通过与RNA结合蛋白的相互作用,在许多生物过程中发挥着重要作用。为了了解lncRNA的功能,一种基本方法是鉴定哪种类型的蛋白质与lncRNA发生了相互作用。但是常规的生物实验方法虽然准确率高,但是需要耗费大量的时间和费用,实验如果没有明确的目的,那在巨大数据量面前的效率很低。机器学习模型的提出为解决此类问题提供了一个良好的思路,利用计算机的运算能力去先行预测,再有目的性的进行生物实验进行验证,大大提高了工作效率。但是传统的机器学习模型必须人工进行特征选择和提取,受人为因素影响较大,而深度学习模型能够自动提取特征并进行分类,进一步提高的预测结果的准确性。本文提出了两个深度学习模型,第一个模型仅使用序列信息,将堆叠去噪自编码器作为基本模型,将梯度提升决策树作为分类器,并使用逻辑回归对结果进行微调,命名为PLRPI。通过实验证明其在拟南芥和玉米数据集(ATH948和ZEA22133)上的结果较好,预测准确度分别为90.4%和82.6%;第二个模型使用序列和结构信息,将堆叠去噪自编码器和卷积神经网络作为基本深度学习模型并对结果进行集成,命名为PRPI-SC。通过实验其在同样的数据集上上也有较好的表现,预测的准确度分别为88.9%和82.6%。PLRPI和PRPI-SC在一些公共RPI数据集上也表现良好。这两个模型能够准确预测植物lncRNA与蛋白质之间的相互作用,并且各有侧重点,对研究植物lncRNA的功能和表达起着指导作用,对非植物数据也具有很强的泛化能力和良好的预测效果。
其他文献
内燃机作为一种高效率的热能动力机械,广泛应用于汽车、船舶、铁路、工程建筑等多个领域。车用柴油机向着轻便、高速、高压、大功率等方向发展,其强化指标不断提高,机械负荷不断增加,对于柴油机的设计也提出了相应的要求:提高效率、增加可靠性、减轻质量、降低燃油消耗率以及降低排放等,相应的柴油机的零部件也就有了更高的强度要求。连杆是曲柄连杆机构的重要组成部分,连杆在往复运动的工作循环中,一直受到来自最大爆发压力
信息时代,互联网上拥有着海量的文本数据,为了方便的检索和利用这些文本数据,需要让计算机“理解”文本,理解语言的核心则是理解语言语义。考虑到语言语义本身是难以表示的,
云计算作为一种广泛应用的新型商业计算模式,改变着信息的传播与服务方式,在动态共享的云环境下,以按需计费方式为云用户提供可靠服务资源。资源匹配调度作为云计算核心,其性能优劣将直接关系用户和资源供应商交互体验,影响云计算的发展。因此,在互联网商业模式背景下,如何将少而优的资源匹配给用户,实现高时效、低成本、高可靠性等多目标要求是研究云计算的关键,也是本文研究的重点。由于资源供应商和不同云用户需求重点不
在分布式深度学习(Distributed Deep learning:DDL)的训练过程中,参数服务器(Parameter Server:PS)将参数分发到工作节点,经过节点计算后,将结果反馈到服务器进行参数优化。
癌症是当今社会致死率较高的一种疾病,因此癌症标记物的检测在癌症的早期筛查、早期诊断、疗效监测与术后预后中有着非同寻常的意义。光电化学传感是一种新颖的分析方法,具有
针对LTE信号定位技术中,不同场景中存在的信号传播差异性,以及使用单一信道衰落模型测距性能差的问题,研究城市环境下的信道场景识别方法,可有效减少测距误差、提升系统性能
精确确定大气可降水量的含量及其变化情况对气象预报、气候变化、水文监测、资源遥感、大地测量等领域的发展均具有十分重要的意义。地基GNSS反演大气可降水量的方法与传统的大气可降水量探测方法相比,具有可实时监测、监测精度高、时空分辨率高、受天气状况干扰较小等优点。且对于区域大气可降水量的反演及应用研究是目前GNSS遥感应用技术主要研究热点之一。目前,现有文献对大气可降水量反演与应用的研究已逐渐成熟,但仍
林分三维可视化是森林经营管理的重要研究内容,但是在林分建模的过程中,多集中于林分生长模拟,对于林分中的树木的颜色变化监测和模拟较少涉及。本文以云南松(Pinus yunnanen
传统的四旋翼无人机控制模型基于四旋翼无人机空气动力学模型,四旋翼无人机动力学模型具有耦合度高、非线性关系的特性,精确得到无人机动力学模型系数十分困难。因四旋翼无人
随着全球经济的不断发展,质保服务已经普遍存在于日常生活。一些消费者甚至通过关注产品的质保服务来评测产品质量的好坏,从而决定是否购买产品。因此不管是消费者还是制造商