基于注意力和表征学习的植物lncRNA编码小肽预测

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:glosslee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长非编码核糖核酸(long noncoding RNA,lnc RNA)作为具有代表性的一类非编码核糖核酸(non-coding RNA,nc RNA),通常被认为不具备编码蛋白的能力。然而,最近研究发现,部分lnc RNA含有不超过300个核苷酸的小开放阅读框(small open reading frames,s ORFs)具有编码小肽的能力,打破了人们对nc RNA不能编码的传统认知,且在后续研究中发现小肽能够调控生命活动。因此,研究人员也开始将目光放到对lnc RNA编码小肽的研究上。目前对小肽的分析与预测分为生物实验方法和计算方法两种。其中生物实验方法代价高、周期长,且一般针对一条或几条小肽,并不适合大规模的小肽鉴定。因此计算方法成为主流方法,利用高可信度的数据,训练传统机器学习或深度学习模型完成预测。然而植物小肽数据较少,目前对小肽的研究大多基于人类和动物的数据,而动物和植物核苷酸结构及序列的差异,导致用于动物数据的预测方法在植物数据上并不可靠,因此能够实现大批量植物lnc RNA编码小肽预测的方法亟待开发。本文提出一种结合注意力权重和表征学习的深度森林预测模型。首先,由于经实验验证的植物lnc RNA编码小肽数据不足,因此采用生物信息学结合传统表征学习思想来获取具有高可信度的数据;其次,因为当前对小肽相关特征的研究尚不完善,因此采用常规的RNA序列以及蛋白质序列的特征提取方法完成对s ORFs以及小肽的特征集合构建,并借助注意力思想将对输入数据的注意力权重分配问题转换成对特征的重要性评分问题,去除其中的冗余特征,获得更有效的特征集合;再次,考虑到小肽相关的新特征难以获取,使用多重嵌入式自编码器的深度表征学习方法挖掘更深层次的特征,利用两个嵌入式自编码器对输入数据进行多次扩展与压缩,将中间层输出作为表征学习结果,得到特征的更优表示;最终,利用深度森林训练模型,实现对小肽的大规模识别预测。在实验过程中利用苔藓数据集在随机森林模型上对比了基于注意力权重的特征选择算法与皮尔森相关系数、信息增益、卡方检验、最大相关最小冗余算法,结果表明本文算法能够以更少的特征维数获得更高的分类器性能;之后,将本文模型分别与其他表征学习算法、传统机器学习模型、深度学习模型以及结合多重嵌入式自编码器的各类模型进行比较,也取得了较好的分类效果,验证了多重嵌入式自编码器良好的表征效果和深度森林的良好性能;其次,采用拟南芥和大豆两类物种的数据集进行独立测试,验证了模型具有良好的泛化能力;最后,在经过实验验证的能够编码小肽的lnc RNA上的s ORFs数据上与现有小肽预测模型进行比较,验证模型的优越性能和实用性。
其他文献
手势姿态估计在增强现实、虚拟现实以及人机交互等方面存在巨大的应用前景,一直以来是计算机视觉领域的重点研究方向。随着大规模手势姿态数据集的出现,基于深度图像的深度学习方法逐渐成为了手势姿态估计领域的主流方法。当前研究主要通过构建三维卷积神经网络进行手势姿态估计,致力于单一精度的提升,但通常导致模型复杂度过高、推理速度低下,难以满足实际应用、实时运行的基本要求。因此,为追求精度和实时性之间的平衡,本文
学位
源文本节选自美国作家古德里奇19世纪50年代所著的历史文献History of All Nations:Asia,所译部分为第104章至113章,共计28000英文单词。该翻译任务由导师发起,导师已与出版社签订合同,翻译该书用于出版。该书的翻译采用“机器翻译+译后编辑”模式进行,选择了拥有良好口碑的国产机器翻译平台代表——小牛翻译作为此次实践的翻译工具,进而评估小牛翻译在翻译历史文献时的真实表现。
学位
本项目实习报告基于笔者在烟台大学学报的摘要英译审校工作,实习时间为2020年1月至2021年9月,审校内容涵盖12期,共计145篇摘要。在项目期间,笔者的工作内容主要是审校烟台大学学报(哲社版)英文摘要,领域涉及哲学、文学、法律等。在项目准备上,本报告探讨了中英文摘要写作标准并分析了摘要文本特点,并在此基础上制定了审校质量标准,介绍了平行文本阅读过程、项目所需的工具和资源以及应急预案。在项目实施上
学位
本翻译项目的材料选自Cultural China一书,书中着墨最多的是儒家的人文精神,突显儒家一脉相承的批判精神。在全球化和本土化意识均日益强烈的今天,该书对于儒家文化的继承与传播具有重要意义,可以为相关学者提供很好的参考,具有一定的翻译价值。本项目选取了书中“人文精神与全球伦理”作为源文本。作为人文精神主题演讲,全文语言流畅,虽涉及部分儒学专业术语,但整体难度适中,重点在于向听众传达思想和观点。
学位
降维是机器学习和数据科学领域的重要研究方向,其应用包括但不限于数据预处理、数据可视化等。多数现有的降维算法获得可信低维嵌入的前提是输入数据具有稠密、均匀的分布特性,但这些方法往往在稀疏数据等缺陷数据上失效。因此,提高降维算法在不同数据情况下的通用性,是一项有意义且具有挑战性的任务。本文从鲁棒降维方法的角度出发,着眼于提高降维方法在缺陷数据上的适用性。基于线性、非线性与神经网络三种降维模型,本文工作
学位
生命过程通常复杂而精细,需要许多生物分子共同参与来完成。构建并分析生物网络有助于准确地认识生物分子的功能与作用,识别生命过程中的关键生物分子,从而辅助疾病诊断、药物研发等研究。本文研究了基于分子间关联关系的生物网络构建方法,和基于差异网络筛选潜在生物标志物的网络分析方法。具体研究内容如下:1.提出了基于加权弹性网络的基因调控网络构建算法WEN(Weighted Elastic Net)。由于基因之
学位
《孔子家语》,又名《孔氏家语》,或简称《家语》,按照今传本附《孔安国序》所言,该书与“《论语》、《孝经》并时”,乃“当书公卿士大夫及七十二弟子之所咨访交相对问言语”,即是一部记录孔子及孔门弟子思想言行的著作,因此被杨朝明盛誉为“孔子研究第一书”,虽在国内曾被一度视为伪书,但却在不同的时期被翻译成英、日、韩等多种语言,并对儒学在世界文化中的传播起到了重要作用。其中,与英国传教士赫真信的英译版及日本学
学位
下一个位置预测任务的目的是希望通过分析人类的移动轨迹数据,获取用户的移动行为规律信息,从而预测用户接下来最可能访问的位置,其在基于位置的社交网络服务中发挥着非常重要的作用。然而,实现准确、高效的位置预测仍然面临着诸多挑战。首先,人类的移动行为与时空因素高度相关,使得人们的出行规律经常表现出极其复杂的时空过渡模式。其次,轨迹数据存在稀疏性和异质性问题,严重影响了位置预测模型的移动规律建模效果。最近,
学位
近年来,行人检测在计算机视觉任务上已取得重大进展。目前大多数行人检测方法都基于深度学习框架,采用深度卷积神经网络(Convolution Neural Network,CNN)来提取特征。然而,CNN中的卷积属于局部操作,主要针对局部图像获取局部信息,无法提取图像的全局信息,并且依赖下采样来获得高级语义特征,不能选择性地关注重要的通道和特定的空间位置,导致检测器的性能受限。此外,实际行人检测场景通
学位
脉冲神经网络,作为第三代神经网络,具有时间连续性、高能效、快速处理和生物合理性等特点,近年来逐渐应用在机器人领域。导航避障任务对于机器人来说是一项最基础且最重要的功能,但如何设计出高效且生物可解释的移动机器人复杂场景下的避障与导航算法是一项重要的研究问题。大多数方法通过人工设计的脉冲模型在大量的数据集中不断训练来实现固定场景下的避障与导航功能。但这些方法面临着如下问题:第一,脉冲模型的训练需要大量
学位