基于集成学习的全基因组水平蛋白质-RNA相互作用预测研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:ebugdoor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA和蛋白质之间的相互作用在调节生物体各种细胞过程(例如基因表达调节)中发挥着至关重要的作用,而对于它们之间的相互作用网络研究却始终得不到突破性进展。一方面,传统的RNA蛋白质相互作用预测模型多是基于它们的结构信息来构建的,但这类基于包含结构信息的小数据集构建的计算模型泛化性能不强,数据集的来源也较局限。另一方面,现阶段大多数分类预测模型都是基于单分类器的,然而机器学习的相关理论研究表明,集成分类器较单分类器而言具有更高的预测准确性以及更好的稳定性和泛化能力。针对目前预测RNA和蛋白质之间相互作用工作存在的挑战与难题,本文基于RNA和蛋白质序列信息提出了两种不同的计算模型来预测其之间的相互作用关系。首先,本文提出了一种基于堆叠自编码器网络并结合随机森林分类器的预测模型。该模型分别使用位置特异性打分矩阵和k-mer矩阵来表示蛋白质和RNA序列,然后再分别使用bi-gram和奇异值分解提取对应的特征向量。该预测模型还使用了一个深度学习堆叠自编码器来学习并融合这些向量中的高级隐藏信息。接着将这些特征和标签输入随机森林分类器训练得到预测模型。此外,本模型还使用了堆叠的集成策略来整合集成三个不同的基础预测模型以改善模型性能。基于三个公开数据集的实验表明,通过将深度学习和特征提取相结合,并使用集成学习整合多个分类模型的方法能够提升RNA蛋白质相互作用预测模型的性能。本文还提出了一种基于boosting集成学习LightGBM分类器的RNA和蛋白质相互作用预测模型。该模型也分别使用位置特异性打分矩阵和k-mer矩阵来表示蛋白质和RNA序列,然后再分别使用伪Zernike矩和奇异值分解提取对应的特征向量。此外,模型将这些特征随同标签一起输入LightGBM分类器训练得到最终的预测模型。基于四个公开数据集的实验表明,应用LightGBM的预测模型在减少训练时间和内存的同时,还能保持很好的分类预测性能。
其他文献
乡愁作为一种现代性话语,发端于高歌猛进的工业文明与举步维艰的农业文明的裂变之中,所表达的是对传统社会的缅怀与依恋,更是治愈"现代病"的一剂良药。确切地说,乡愁是对现代
桥梁在移动车辆作用下的动力响应一直是桥梁设计需要关注的重要问题。但是,现有研究大多将移动车辆作用下的桥梁直接简化为移动载荷作用下梁的振动问题,当车辆的质量与桥梁的
目的:本研究采用国际通用术语编码字典的研究方法,参照世界卫生组织不良反应术语(WHO-ART)编码和药物字典(WHO-Drug Dictionary)以及MedDRA术语集,加入中医内容,充分保持中医
在梳理沈家本刑事诉讼法学思想的基础上,文章全面阐述了他关于刑事诉讼法的作用及其与刑法的关系;刑事诉讼法的基本原则,即司法独立原则,发现真实原则,控辩平等原则,辩护与审
药品在上市前后需要针对其可能出现的不良反应进行监测,并对其进行编码和分类。这就需要使用具有规范性的常用术语集,而WHO不良反应术语集(WHOART)与国际医学用语词典(Med DR
目前,农村各式各样的达标升级、评比检查活动太多太滥,导致基层疲于应付,已形成一种"公害"。造成达标评比过多过滥的原因有三:一是一些单位视达标评比为促使基层工作上台阶的
期刊
药品安全性问题一直是全球共同关注的焦点。而药品不良反应信息的准确采集对于药品不良反应的发现至关重要。药品不良反应术语集将不良反应报告的术语进行医学上有意义的分组
近年来,随着我国城市化水平的提高,城市规模的扩大,城市发展不再是简单地筑路盖房,而是进入到一个新的阶段,即如何全面塑造城市品牌、提高城市声誉、增强城市综合实力、纳入
为评估生态环境中碳纳米材料与抗生素的生物安全性,选取了碳纳米材料中的氧化石墨烯(graphene oxide,GO)与还原性氧化石墨烯(reduced graphene oxide,rGO)和抗生素中的磺胺嘧
“农业产业园+田园综合体”是在建设“美丽中国”大道上提出的新的建设理念。拓展农业发展的多种功能,推进农业与休闲旅游、教育文化、健康养生等深度融合,发展观光农业、体