结合逻辑推理和胶囊网络的植物lncRNA编码短肽预测

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jfskldafkld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长链非编码RNA(lncRNA)是一类不编码蛋白、长度大于200核苷酸(nt)的非编码RNA。然而,最近研究表明,部分lncRNA中含有不超过300 nt的短开放阅读框(sORFs),从而具有编码短肽的能力。植物lncRNA编码短肽在其生长发育过程中起着不可替代的作用,而且对农林生产中植物品质的改善、植物产量的提高具有重要的应用价值,因此,对植物lncRNA编码短肽的研究已经逐步进入公众视野。目前鉴定短肽的方法主要包括生物实验方法和计算方法两种。生物实验方法由于其代价高、实验周期长,导致其不适用于大规模的鉴定。计算方法大多是基于人类和动物数据训练的机器学习模型,一方面相较于人类和动物数据,植物数据较少;另一方面动植物短肽之间存在一定的差异,导致现有的工具难以直接用于植物短肽的预测,因此自适应挖掘植物短肽面临很大挑战。由于经实验验证的植物lncRNA编码短肽数据较少,采用生物信息学软件挖掘植物lncRNA中的sORFs序列,为提高数据可信度,基于逻辑推理的思想进一步筛选数据集;为解决现有工具难以直接应用于植物短肽预测的问题,构建基于特征工程的植物lncRNA编码短肽预测模型。针对机器学习方法涉及过多人工干预,且在新特征难以获取的情形下,模型性能不易提升的问题,提出一种结合多尺度卷积神经网络(CNN)和胶囊网络(Caps Net)的植物lncRNA编码短肽预测模型MConv MCaps,其利用多尺度CNN获取多种类型的初级特征,以丰富特征多样性,并且利用多尺度胶囊网络提取高级特征并自动进行特征聚类,从而实现准确分类预测。首先,为了保存密码子与氨基酸的对应关系,对序列进行3-nts编码;然后,使用多尺度卷积核代替单一卷积核,从多个角度获取主题特征,同时借助多尺度胶囊网络代替单一胶囊,更好地进行特征整合。实验在苔藓数据集上,与传统机器学习模型、单一深度学习模型和简单融合深度学习模型相比,取得较好的分类效果,验证了提出模型的合理性与高效性。另外,采用拟南芥、大豆两个物种的数据集进行独立测试,验证了模型具有良好的泛化能力;采用经验证的lncRNA-sORFs数据进行独立测试并与现有工具进行比较,进一步验证了模型的优越性。
其他文献
双语命名实体对是跨语言自然语言处理领域的一项重要资源,大规模双语命名实体识别可以有效提升信息检索、机器翻译、自动摘要等自然语言处理任务的性能,研究抽取双语命名实体对有重要的意义和应用价值。本文对中英双语对齐语料抽取命名实体对的方法进行了研究,在学习前人工作的基础上,针对中英命名实体对匹配不完全、匹配错误等问题,提出了一种融合词向量的多特征命名实体对抽取方法。首先,使用命名实体识别模型分别在中英两种
学位
近年来,智能交通系统的快速发展使得车联网技术成为研究热点,第五代移动通信技术(5G)的到来更是极大地促进了车联网的发展。目前车联网的通信协议主要有两种,一种是IEEE 802.11p协议(又称WAVE,Wireless Access in the Vehicular Environment),另外一种是由我国主推的LTE-V(Long Term Evolution-Vehicle)协议,然而这两种
学位
随着我国城市化工作进程的向前推进,我国的城市规模不断扩大,进而也相继出现了一些问题,如交通堵塞问题、环境污染问题以及人口过多的问题,以上这些由于城市发展导致的不良状况也对市民的心理健康产生了不良影响,如抑郁症、拥挤焦虑症等等。当今社会经济迅猛发展,生活在社会中的人们面临着一定的生活压力,可能存在着显著性的亚健康状态。多数市民的心理状态都很疲劳,也因为精神疲劳进而产生其他严重的心理疾病。并且,心理健
学位
20世纪70年代到90年代,我国面临着严重的人均住房紧张的难题,为了在一定程度上缓解人口增长,解决住房难题,以我国事业以及企业单位牵头带领,修建了大批住宅小区。但受当时建设技术条件以及理念的种种限制,在建设住宅小区的同时,并没有意识到声环境问题的重要性。如今,在政府的积极鼓励之下,大力推进旧城区改造工作,人们的精神需求也提上日程,如何为当代居民提供一个宜居、舒适的老旧小区室外声环境成为了当下学者们
学位
本研究的目的是设计一种检测混凝土裂缝的方法,利用时间反转压电传感器进行混凝土结构健康监测(structural health monitoring,SHM)。SHM的目标是对混凝土结构进行持续的无损评估。当安装如核电站或桥梁等大型混凝土结构时,检测甚至定位混凝土结构的轻微损坏是一项具有挑战性的工作。压电陶瓷材料的发现以及基于时间反转法的传感器/驱动器技术在混凝土结构损伤识别和诊断领域的最新进展为S
学位
目前,经济快速发展导致了社会关系淡漠,同时城市居民也对身心健康状况越来越重视。繁重的工作任务和学习压力使得居民的生理和心理的健康水平日益下降,在寒风呼啸、冬季低温、降雪结冰、河流污染、冬季绿化匮乏和空气污染等条件下,寒地居民更需要一个健康促进的社区户外空间环境来调节和减轻身心压力。在寒地城市范围内,各类关于人居社区环境的会议越来越注重对于健康促进型社区户外空间环境的建设。论文将寒地社区户外空间作为
学位
图像分割作为图像处理的第一步决定着后续图像处理的任务与操作,结合水平集方法的活动轮廓模型是图像分割的研究热点。Chan-Vese模型作为一种结合水平集方法的几何活动轮廓模型,可以有效地分割含噪声和弱边缘图像。以欧拉弹性为正则项的图像分割模型较Chan-Vese模型可自动补回缺失边界,对图像分割效果更好。首先,文献中利用増广拉格朗日方法求ECV-L~1模型和ECV-L~2模型时,求解u、n两个参数对
学位
镉(Cadmium,Cd)是一种对人类及其他生物有剧毒的重金属,其造成的土壤质量恶化、作物产量降低、生物健康水平下降等不利影响,严重破坏生态安全。硫(Sulfur,S)作为植物生长的必需营养元素,在许多研究中被发现与植物响应重金属胁迫的过程具有一定关联性。野菊(Chrysanthemum indicum)为多年生草本植物,有分布广、适应性强、生物量较大等特点,目前多用于制作药材、提取精油和装饰。已
学位
自动问答能够根据用户的问题,返回正确的答案,是自然语言处理领域的一个研究热点。至今为止,通用领域自动问答对于简单问题的回答已经达到了较高的准确率,而生物医学领域问答性能仍然有待提高。针对生物医学实体关系复杂、问题和答案对语义理解困难等问题,本文研究问题和答案对间的语义联系,以及基于专业知识的语义理解等生物医学问答关键问题。本文主要研究内容如下:(1)基于问答对语义挖掘的生物医学问答研究。生物医学问
学位
2015年5月国务院印发了《中国制造2025》,部署全面推进实施制造强国战略。要想成为制造强国,不仅需要国家宏观政策的外在支持,同时也需要制造业员工工匠精神的内在驱动。自2016年政府工作报告首次正式提出“工匠精神”以来,培育和弘扬工匠精神已然成为国家发展的现实需求。因此,培育和弘扬工匠精神将促使我国的工业技术进一步发展,对企业的发展和员工个人的成长也都具有重要的意义。已有研究表明领导行为能够对员
学位