深度学习在circRNA识别中的研究与应用

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:shenkui1945
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
circRNAs(Circular RNAs,环状RNA),是一类特殊的非编码RNA。存在于细胞内也游离于细胞外,其特殊的环状结构使得其稳定性较强。因为circRNA在肿瘤细胞有特异性表达所以其可以作为临床的肿瘤标记物,而RNA序列的识别是鉴定circRNAs标记物的首要步骤,然而传统的鉴定方法是基于RNA序列的生物表达特征或者和已有的RNA序列库做比对,结果存在一定的假阳率和对RNA片段的判断不准确。近年来人工智能技术发展迅速,成熟的深度学习神经网络已在实践中得到了较好的应用。本文利用深度学习技术,将RNA整个序列作为特征输入到深度学习模型,最后输出特征向量预测RNA序列类别。这种端到端的算法模型降低了程序上的复杂度,且可以很好的挖掘序列特征达到准确识别分类的目的。本文收集了人类的circRNA和m RNA分别作为实验的正负数据集,总共约40,000条RNA序列数据。实验将40,000条数据按9:1的比例划分为训练集和测试集,采用one-hot或word Embedding方式编码,然后分别用LSTM(Long Short-Term Memory长短时记忆网络)、Text CNN(Text Convolutional Neural Networks,文本卷积神经网络)、Text RCNN(Text Recurrent Convolutional Neural Network,循环文本卷积网络)、Transformer和ELMo(Embedding of Language Model)五种不同的模型构建circRNA预测模型。其中LSTM是经典的循环神经网络,在一定限度内保存了序列在不同位置上的信息。本实验采用单层单向的LSTM模型作为第一种模型的主体结构,测试集的准确率达到97%。Text CNN采用CNN卷积神经网络模型,其在序列的局部位置上表现突出。本文采用了四种不同尺寸的卷积核作为highway网络模型,测试集的准确率达到98%。Text RCNN则综合了前两者的优点,先通过RNN循环神经网络编码再进入CNN卷积神经网络,本文通过序列移位的方式将单输入变成三输入,简化了计算循环网络步骤,测试集的准确率达到98%。Transformer则引入了attention机制的和大量神经网络技巧的大型网络,本实验在原有的Transformer部分稍作改动获得较为轻量级的Transformer测试集的准确率达到89%。ELMo是一种预训练模型,本文的一大特点就是在RNA预测模型上引入了预训练模型。本文通过切分和编码序列导入ELMo模型训练预训练模型参数,在下游任务通过预训练模型获得序列在上下文环境的词向量嵌入,经过线性组合简单分类取得95%准确率。本文在每个模型小节详细讨论了该预测模型在RNA序列识别的特点和不足以及可能需要改进的方向。同时对比了每个模型的最终准确率曲线和损失函数下降曲线,分析了每个模型的使用场景。并且使用Django框架将五种模型部署到线上,构造API接口。最后我们对所有模型做了技术总结,对人工智能技术在RNA序列识别方面做了展望。
其他文献
随着企业生产力的不断提升,产品仓储问题成为企业的一大痛点。传统老旧的仓储管理软件已经无法满足智能时代自动化生产的要求。为了提高仓储效率,降低用工成本,在仓储物流信息系统(WMS)和仓库控制系统(WCS)的基础上对智能仓储系统架构展开设计研究,其中WMS负责对各类物料及库位信息进行管理;WCS负责实时接收物料管理层信息,通过与PLC的通信将任务下发至设备进行调度,并向物流管理层反馈信息。借助WMS和
期刊
马尾绣传统工艺是水族人民劳动与艺术的完美结合,在城镇化进程中,产生于农耕年代的马尾绣传统工艺,由于缺乏创新,其发展道路遇到了多方面因素的正面阻拦,如何平衡传统与现代的关系是目前最棘手的问题。当下,对传统技艺的要求是抢救性保护和活态化传承,经过10多年的“非遗名录制”保护措施,越来越多的传统手工艺申报非遗项目后却止步在名录的荣誉中,无法转化为大众生活中的所需品,淹没在时代的潮流中。马尾绣传统工艺的现
学位
海南黎锦是海南黎族文化的重要载体之一,具有制作工艺高超、图案设计精巧、色彩搭配和谐等特点,承载着黎族族源族系、生产劳作、婚姻家庭、宗教信仰、审美意蕴等多种文化信息。2019年联合国教科文组织将“黎族传统纺染织绣技艺”列入急需保护的非物质文化遗产名录。本文以海南黎锦纹样为研究对象,通过田野调查和文献研究相结合的方法收集海南黎锦纹样样品,以文化基因为研究视角,在对海南黎锦纹样进行分类的基础上使用系统发
学位
疼痛是一种令人不愉快的主观感受,不仅让患者遭受肉体上的痛苦,也会带来精神上的折磨。为了减少患者的病痛,提高他们的生活质量,临床上会采用镇痛药物缓解患者的痛苦。然而这类镇痛药多为阿片类,具有成瘾性,对患者有毒副作用,于是开发一种毒副作用小的新型镇痛药迫在眉睫。杜鹃花科(Ericaceae)类植物的二萜成分具有消炎镇痛的功效。前期的研究发现,实验室提取出的杜鹃花科二萜成分的3种单体(ZJF1-34-1
学位
我国的“民工潮”现象始自上个世纪80年代末期,随着国家经济飞速发展,越来越多的少数民族人口选择离开贫困地区外出务工创业,在扎根城市的过程中他们构建了以家户经营为特征的谋生策略。本文基于对武汉市新疆籍少数民族务工创业者的田野调查认为,这一谋生策略是城市少数民族流动人口的个性,也是进城务工创业群体的共性,该群体在城市中依赖着家户经营组织得以生存的同时,这种经营模式也产生了诸多不利于个体发展的阻碍因素。
学位
神经系统是控制生命活动的中枢,神经活动的正常稳定运行是生存的基础。神经活动的运行过程中,神经信号的传递依赖于突触,所以突触结构的正常生长和发育显得尤为重要。影响突触生长和发育的因素有很多,包括日常饮食摄入,先天疾病和内分泌功能等。已有文献表明,参与SNARE(Soluble N-ethylmaleimide-sensitive factor Attachment Protein Receptor,
学位
疼痛是一种令人不愉快的主观感觉和情感体验,不仅让患者遭受肉体上的痛苦,也会让患者遭受精神上的折磨,甚至还会影响患者的日常生活和工作。目前,临床上广泛使用的镇痛药物如阿司匹林、阿片类药物等都具有一定的不良反应,因此研发新型镇痛药物十分必要。野木瓜(Starntonia Chinensis DC)是一种具有消炎镇痛作用的传统中药,研究表明野木瓜总皂苷(triterpenoid saponins fro
学位
纤维肌痛(Fibromyalgia,FM)作为常见的慢性病,在不同的人群之中广泛存在,但是其发病机制和治疗方案目前都存在诸多争议。当前有药物治疗和非药物治疗两种主要的治疗方案,这两种方案通常是结合使用的,但是有证据表明长期使用神经活性药物可能会导致认知缺陷,随着对慢性疼痛患者运动异常的深入研究,越来越多的证据支持在FM等慢性疾病中运动皮层调节的治疗作用,运动皮质激活对慢性疼痛有镇痛作用,因此对FM
学位
肺癌是世界上最常见的恶性肿瘤,也是发病率和死亡率最高的肿瘤。在众多的肺癌治疗方法中,靶向药物治疗具有疗效好,不良反应发生率低等优点,越来越被肿瘤学术界和广大患者所认可,已成为中晚期肺癌治疗的主要手段。但是靶向药价格昂贵,药效评估周期较长,如果无法对靶向治疗的有效性进行及时的判断,不仅影响治疗疗效,也会形成极大经济浪费。因此,对靶向药物疗效评估的研究对于肺癌的治疗具有重要的研究意义和使用价值。影像组
学位
为了明确面粉储藏品质变化规律,提出合理控温控湿工艺,研究不同初始水分(14.5%、15.0%、15.5%)面粉在不同温度(21、24、27℃)、相对湿度(55%、65%、70%)下储藏的水分、脂肪酸值、品尝评分值、玉米赤霉烯酮(ZEN)和呕吐毒素(DON)的变化规律并建立了数学关系模型。结果表明:面粉水分、脂肪酸值、品尝评分值总体上与储藏条件呈线性关系,回归模型拟合结果较优,决定系数(R~2)分别
期刊