基于机器学习的RNA相关功能位点研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:jeep_lee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA在基因的编码、解码、调控和表达中起着重要的生物学作用,本文主要利用传统机器学习和深度学习等算法对RNA相关的几种重要功能位点进行了研究,主要包括环状RNA与RNA结合蛋白(RBP)的结合位点预测,可改变碱基互补配对的RNA假尿苷(Ψ)位点预测,N7-甲基鸟苷(m7G)位点预测以及RNA干扰相关的昆虫表皮蛋白CPR家族分类。具体的研究内容如下:(1)与传统的线性RNA(包含5’和3’端)不同,环状RNA(circRNA)是一种具有闭合环结构的特殊RNA。为了更好地理解环状RNA的调节功能,需要深入了解环状RNA与RBP的相互作用机制。本文基于双输入的集成结构的神经网络,建立了环状RNA与RBP结合位点的预测模型PASSION。集成模型结构由两部分组成,一部分是标准的神经网络,其输入是增量特征选择和极端梯度提升(XGBoost)筛选六种编码方式后的特征子集;另一部分是卷积神经网络(CNN)和长短期记忆网络结构(LSTM),其输入是基于密码子的堆叠编码特征。37组基准测试实验表明,PASSION在识别环状RNA和RBP结合位点方面具有很强的竞争力。(2)针对Ψ修饰的特异性,本文提出了一种基于集成学习的预测RNA的Ψ修饰位点的方法,称为EnsemPseU。首先根据五种序列编码方法提取了特征,并利用卡方特征选择降低特征维数并去除冗余信息。基于选择后的优化特征,结合支持向量机、极端梯度提升、朴素贝叶斯、K近邻算法和随机森林构建了集成的预测模型。10折交叉验证和独立测试的检验结果表明,EnsemPseU在分类准确率方面优于已有的模型。(3)N7-甲基鸟苷(m7G)是一种带正电的mRNA修饰,对基因的高效表达和细胞的存活至关重要,利用生物信息学方法鉴定转录体m7G位点已经成为重要的辅助手段。本文基于XGBoost算法和六种不同的序列编码方式,开发了一种新的预测模型XG-m7G来识别RNA的m7G位点,并通过模型解释算法SHAP挖掘出了对识别m7G位点的重要特征。(4)本文应用单个氨基酸组成和氨基酸对组成特征,构建了基于卷积神经网络的预测模型,用以识别昆虫表皮蛋白的CPR家族序列。
其他文献
地名是历史的产物,可以折射一个时代社会、经济、军事、文化等各个方面的风貌。改革开放四十二年以来,中国的经济取得了巨大的成就,生产力大幅度提升。在城市化进程中,中国的社会面貌发生巨大变化,其中地名的减少和更新是这些变化中不容忽视的文化现象,地名研究具有其时代意义和现实意义。以全国39757个乡镇地名为研究对象,使用文献法、数据统计法、分析法等研究方法对全国的乡镇地名加以分析研究。首先把乡镇地名分为自
福斯特人物理论是在20世纪西方叙事理论发展的高峰时期提出,并伴随英国小说理论的发展而产生,与同期出现的一系列系统化的小说叙事理论一样,得到了众多学者的关注和认可。福斯特人物理论,即“圆形人物”与“扁形人物”的人物划分理论。该理论最早于1929年经由吴宓译介传入中国,而此后长达50多年的时间里,其接受与传播却一直停滞不前。直到20世纪80-90年代中国文学理论传播接受语境的改变,才为该理论重返中国文
目的:肝肾综合征(HRS)的主要发病机制是肾小球滤过率(GFR)明显下降,其特点是肾脏无病理学及形态学改变,只是功能异常。已知肾小球系膜细胞(GMCs)收缩可引起肾小球滤过面积减
气象与人类生活息息相关,随着社会的发展,人们也越来越关注气象,关注生活质量提升。在小学阶段开展气象实践活动是科学教育的有效载体,提升学生素养的重要途径。开展气象科普
会议
学术成果摘要本书以中医基础理论,包括阴阳五行、藏象经络、五运六气、病因病机、诊法治则等理论为指导,结合编著者的临床经验系统地提出了"中式人体生物钟"理论。共分为十八
会议
融媒体时代,新媒体迅速崛起,传播途径日益增多,社会中思潮涌动、声音混杂。此时,各类地方党报评论的作用越来越凸显。党报理论评论不仅仅是党报的旗帜和灵魂,还是党传播重大
肺癌的发病率位于癌症首位,及早的发现肺癌并采取有效的治疗措施可显著提高患者的生存率,与传统的影像、病理诊断等技术相比,基于呼气分析的电子鼻技术具有无创、操作简单、
目的:探讨血管内皮生长因子(Vascular Endothelial Growth Factor,VEGF)对同种异体骨髓间充质干细胞(Bone Marrow Mesenchymal Stem Cells,BMSCs)移植后在纤维化大鼠肝内定植
儿童是巴金作品中比较常见的艺术形象,是作者愿望的聚焦点和想象的载体。本文以巴金小说中的儿童形象为研究中心,力图在前人研究的基础上,通过文化分析、文本深读、跨学科研究等方法进一步对巴金小说中儿童形象的创作源流、形象类型、叙述方式、核心主题进行深入分析。第一章从巴金小说中儿童形象的创作源流入手,论述了青少年时代“长宜子孙”的触动、“五四”精神的烛照、“爱的教育”世界观的形成、以及巴金对弗洛伊德精神分析
吴组缃的创作主要集中于二十世纪三十年代,四十年代写作《山洪》之后便再没有小说问世。吴组缃早期主要将目光放在受传统思想影响的女性身上;三十年代尝试用经济理论剖析农村破产的根源;抗战爆发后,吴组缃以小说呈现农民从愚昧盲目到觉醒的全过程,这些体现了吴组缃作为一位知识分子具有的社会责任感,和他对故乡复杂的情愫。本文共有三章:第一章以对人物的考察为核心,探讨吴组缃对女性的命运、经济破产之后乡绅农民的生活及抗