基于RNA序列数据挖掘的结合位点预测

来源 :江南大学 | 被引量 : 0次 | 上传用户:zzt00007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环状RNA(circ RNAs)-RNA结合蛋白(RBPs)结合位点在许多生物过程中起着重要作用。因此,研究RBPs在circ RNA上的结合位点是至关重要的。虽然基于传统机器学习和深度学习的方法已被用于预测circ RNA与RBPs之间的相互作用,但对已有算法还未能充分学习circ RNA的相关特征,也未能进行高效的协作学习。针对上述问题,本文研究两种用于circ RNA-RBP结合位点的识别方法。主要工作如下:1)第一个工作研究了一种基于多视角深度学习、子空间学习和多视角分类器的多视角分类方法DMSK,用于circ RNA-RBP相互作用位点的识别。在现有的预测方法中,主要以circ RNA序列作为研究主体,比如circ RNA序列的结构和组成信息,还没有得到充分的利用。虽然一些方法已经抽取不同的视角来构建识别模型,但如何高效地利用多视角数据进行识别模型的构建还没有得到深入的研究。在DMSK方法中,首先,将circ RNA序列转换成伪氨基酸序列和伪二肽组分,用于分别提取circ RNA的高维序列特征和组分特征。然后,使用结构预测方法RNAfold来预测RNA序列的二级结构,并利用序列嵌入模型来提取上下文依赖特征。接着,将上述构建的四个视角初始特征数据传送给由卷积神经网络(CNN)和长短期记忆网络(LSTM)组成的混合网络,以获得circ RNAs的多视角深度特征。进一步,基于对视角加权的广义典型相关分析(WGCCA),通过子空间学习抽取出四个视角的共性特征。最后,将学习到的子空间共性特征和多视角深度特征用于给下游的多视角TSK模糊系统分类器的学习,以构建一个基于规则的具有较好解释性的多视角分类器。利用受训后的分类器,可以对新样本预测RBP结合位点在circ RNA上的具体位置。我们的实验研究表明,与现有方法相比,所研究的新方法DMSK预测性能得到了较大提高。2)第二个工作研究了一种新的综合了局部和全局特征学习的新方法LGMK。对于局部特征,使用了新伪氨基酸序列、RNA序列和其二级结构组合、k元核苷酸频率(k-mer频率)和Circ RNA2Vec特征,分别提取氨基酸序列特征、结构特征、上下文特征和连续分布式语义特征。对于全局特征,对各个视角的局部特征进行综合来实现。然后在提取局部视角和全局视角的初始特征之后,利用包含深度多尺度残差网络(DMSRN)和具有自我注意机制的Bi GRUs两个核心模块的混合深度网络,对每个视角的初始特征学习,从中提取出各初始视角对应的深度特征,以构建出局部深度特征和全局深度特征。进一步,利用研究的多视角深度特征数据为下游的分类模型提供多视角的训练数据。基于多视角深度特征数据,引入了基于规则的具有较好透明性和可解释性的多视角TSK模糊系统分类器,来构建出circ RNA-RBP结合位点的分类模块。我们的实验研究表明,通过充分利用局部特征和全局特征,研究的LGMK方法预测性能优于其他对比方法。
其他文献
The aim of this research is to highlight the active role of Morocco in promoting South-South cooperation in Africa as a new emerging actor.Throughout its history,Morocco has continuously stressed the
学位
随着人工智能的发展,智慧医疗已成为目前炙手可热的智能应用领域,在医学图像处理方面发挥着重要的作用。医学影像成像技术在临床医学领域的不断发展,使得人们对图像的依赖性逐渐增强,对诊断的准确率需求不断提高。因此,医学图像处理技术依然有很大的提高和发展空间。其中图像分割一直是该领域的突破点,尤其是针对脑部核磁共振这类灰度不均、存在部分容积效应、既模糊又复杂的图像,很难获得较高的精度。由于每个人脑内部组织存
学位
极限学习机(ELM)原理是利用一种基于单隐层前馈网络的学习算法,采用随机的方法确定输入层和隐含层之间的权值和偏置,通过分析的方法则可以进一步确定了输出层的权值,ELM克服了存在于基于梯度网络算法上的很多不足,如陷入局部极值、不合适的学习速率、学习速度较慢等,但ELM也存在着过拟合的隐患且单个算法稳定性相对较差。本文对此的研究工作如下:针对上述问题,本文提出了多样性正则化极限学习机的集成模型(DRE
学位
技术可以从一篇或多篇文档集合中得到总结文章主旨信息的简短摘要,并要求在遵循事实的前提下保持一定的流畅性。基于深度学习的自动摘要方法更接近人们总结摘要的思想,但其研究深度还远远不够,有待进一步深化。本文主要研究基于深度学习的单文档生成式自动摘要,并完成以下工作:(1)应用文本主题信息的短文本摘要研究。提出一种基于注意力机制和双向长短记忆神经网络的主题信息增强的自动摘要模型,并导入指针机制以避免OOV
学位
文本语义表示是自然语言处理的核心内容,也是文本理解、处理和搜索任务中最基本的工作之一。传统的文本表示方法通常无法充分建模文本的上下文信息,导致文本结构信息缺失、文本语义获取不充分。基于神经网络的方法虽然能获得相对较好的结果,但是其可解释性较差,严重影响了它的应用范围。考虑到知识在人类大脑中通常是以联想记忆的形式存在,论文从人脑联想记忆视角出发深入探究知识体系的内在结构,以探索一种新的文本语义建模技
学位
阿尔茨海默病(Alzheimer’s Disease,AD)是导致老年人死亡的最主要原因之一。其早期阶段为轻度认知障碍(Mild Cognitive Impairment,MCI),主要表现为记忆减退,判断能力下降等。发展到AD阶段则表现为记忆严重受损,情感变得急躁等,甚至日常生活不能自理。该病危害严重,不仅给患者带来巨大痛苦,也给家庭和社会医疗带来巨大负担。目前AD尚无法治愈,对该病的预防和早期
学位
频谱分析在信号处理中起着关键性的作用,其数学理论是正交函数系。地图曲线作为一类典型的几何信号,具有形态结构复杂、应用领域广泛的特点。本学位论文通过引入一类新颖的完备正交系——V-系统,展开对以地图曲线为代表的复杂几何对象的频谱分析。主要研究内容包括:本文第一、二部分:主要以地图曲线为例,实现基于频域滤波的线状要素化简方法和群组地图曲线的多尺度表达。首先,介绍了V-系统的基本理论和构造方法,并利用其
学位
本文在制度分析理论和科学社会学理论的指导下,对当前期刊论文撤销制度进行了梳理,在参考已有研究的基础上建立了期刊论文撤销制度学术净化效果的影响因素模型,以Web of Science中1951年至2021年的9089篇撤销论文基本文献数据、引用数据及其对应的撤销声明数据为主要数据来源,进行了变量的选取和操作化,将撤销后被引比例作为期刊论文撤销制度学术净化效果的衡量因素,在控制作者数量、参考文献数量、
学位
机器学习尤其是深度学习技术促进着现代医学的发展,在很多疾病的诊断过程中起到了重要作用。传统机器学习方法需要大量的数据来训练算法模型,而在智慧医疗领域,由于数据的来源涉及患者隐私,很难获取海量的生物医学数据进行公开研究,这给机器学习技术在该领域的应用带来了诸多挑战。在该背景下,本文主要结合EEG脑电癫痫信号和新冠肺炎肺部CT图像这两种生物医学数据的自动诊断问题,开展面向生物医学数据的小样本分类方法研
学位
点云的特征检测是点云数据处理中最基础也是最重要的一个环节,数据处理中的多数算法都与点云特征提取有一定的关联,例如:点云的配准、分割、曲面重建、重采样等。其中,点云配准技术在计算机视觉中起着举足轻重的作用,并且广泛应用于三维重建、目标识别与跟踪、智能机器人等领域,具有重要的研究价值。传统的基于点特征的点云配准技术,无法保证对应关系的准确性和效率。随着对测绘成果的要求不断提高,对配准技术的要求也随之提
学位