【摘 要】
:
研究背景传统RNA领域研究根据其是否具有蛋白质编码能力,将RNA分类为信使RNA(messenger RNA,mRNA)或非编码 RNA(non-coding RNA,ncRNA)。然而最近有研究表明,在动物、植物和细菌中发现了一类非常规RNA,其既可以具有mRNA的蛋白质编码能力,又具有ncRNA的调控功能,此类同时具有编码蛋白质和非编码功能的RNA被称为“双功能RNA(dual-functio
论文部分内容阅读
研究背景传统RNA领域研究根据其是否具有蛋白质编码能力,将RNA分类为信使RNA(messenger RNA,mRNA)或非编码 RNA(non-coding RNA,ncRNA)。然而最近有研究表明,在动物、植物和细菌中发现了一类非常规RNA,其既可以具有mRNA的蛋白质编码能力,又具有ncRNA的调控功能,此类同时具有编码蛋白质和非编码功能的RNA被称为“双功能RNA(dual-function RNA)”或者“cncRNA(codingandnon-coding RNA)”。目前已鉴定的双功能RNA大多为lncRNA。这种特殊的双功能lncRNA参与了多种生物学过程。研究目的尽管双功能lncRNA近年来引起了广泛关注,并且已有研究收集了各种实验证实的双功能RNA数据,构建了双功能RNA数据库。但目前仍缺乏可用于预测双功能lncRNA的生物信息学计算方法。因此,需要一个高效且精准的计算预测框架来帮助lncRNA双功能属性的预测。研究方法本研究在前期构建的双功能RNA数据库的基础之上,进一步基于多头自注意力机制模型,开发了双功能lncRNA的预测算法。主要内容如下:在双功能RNA数据库中筛选出双功能lncRNA的序列信息,同时从Ensembl数据库中下载了人类lncRNA转录本序列,序列预处理后构建基准数据集。在模型中,我们嵌入了注意力模块和多层感知机,同时为了减少模型过拟合和梯度消失,我们引入了 dropout和ensemble策略。最终在基准数据集上,我们使用5倍交叉验证方法评价了模型的性能。为了测试模型的稳定性和扩展性,我们又进行了独立数据集和跨物种数据集的评估。独立数据集来源于对四个白血病细胞系的转录组,翻译组和蛋白质组数据的联合分析。此外跨物种数据来源于cncRNAdb数据库。由于独立测试集是在特定细胞系条件下的结果,以及跨物种数据的数量很少,在这一部分的评估我们使用的是恢复曲线下面积。最后为了探索双功能lncRNA相关的细胞机制和功能,在MEME分析平台上,对双功能lncRNA的序列特异性进行了分析。对发现的特性序列片段,使用人类已知的RNA结合蛋白(RNA Binding Protein,RBP)进行注释,并探索可能的调控机制和影响的功能。研究结果我们的数据表明,在基准数据集上,和各种经典机器学习方法进行比较,LncReader在多个性能评价指标下都展示了一定的优势。在独立测试数据集上,我们的算法依旧表现出优于其他算法的准确性和稳定性。值得注意的是,在跨物种的数据集上,LncReader依旧取得了最好的性能。最后在序列特异性分析中,发现了三个特异于双功能lncRNA的序列基序并找到对应的RNA结合蛋白。总之,本研究基于目前双功能lncRNA预测方法仍然缺乏的现状,开发了 LncReader算法,用于快速识别双功能lncRNA,为RNA分类、功能及进化研究提供了重要技术支撑。
其他文献
背景颅颌面骨缺损修复是提升患者生活质量的迫切需要。高密度聚乙烯(High density poyethylene,HDPE)具备良好的生物相容性和不可降解性,广泛应用于颅颌面骨缺损的长期植入,然其成型方式及表面活性仍需进一步改进。目的通过3D打印HDPE支架,运用聚多巴胺(Polydopamine,PDA)结合羟基磷灰石(Hydroxyapatite,HA)和血管内皮生长因子(Vascular e
目前,日益增加的耐药菌已经对人类健康构成了严重的威胁。在此环境下,人们迫切需要新型的药物研发策略或者新型的抗菌手段来对抗病原菌。本论文基于新型的药物研发策略以及基于光动力治疗手段来开发新型的抗菌剂,并对它们的抗菌活性与机理进行研究。论文的工作分为三部分:第一部分:基于药效基团杂合的理念开发了 10个新型的1,3,4-噁二唑-2(3H)-诺氟沙星杂合体。体外抗菌实验表明大部分的杂合体对革兰阴、阳性菌
癌症是世界范围内的主要公共卫生问题,被认为是全球人口的主要死因。喜树碱(Camptothecin,CPT)作为一种经典化疗药物,对多种肿瘤具有显著的抗增殖活性,应用前景十分广阔。然而,CPT水溶性差、缺乏选择性等缺陷严重限制了其临床应用。近年,大量新型药物递送系统被开发用于化疗药物的靶向运输,多肽-药物偶联物(Peptide-drug conjugates,PDCs)作为新型抗癌靶向疗法受到了广泛
微/纳米马达是革命性的微型机器人系统,能够将包括光、超声和热能等在内的多种能量转换为机械动能。在这些驱动马达的方式中,光驱以其无线式传播、精准运动控制和高效驱动等优点已成为微/纳米马达研究的热点方向。尽管科研工作者们已经在包括显微外科和诊断在内的医学治疗中探索了光驱微/纳米马达的运动能力,但将其内在能量转化为生物电神经刺激和在生物组织内的可控穿透等方面仍未探索。针对以上的问题,本研究以光驱动微/纳
砜类和喹啉类化合物是两种非常重要的有机化合物,在生物医药领域有着广泛的应用。亚磺酸钠和2-甲基喹啉分别是合成砜类化合物和喹啉类化合物重要的合成子。本论文进行了亚磺酸钠和2-甲基喹啉作为底物的合成方法学及产物的生物活性研究。论文内容分为以下三个部分:第一部分为亚磺酸钠作为底物的合成方法学和产物的生物活性研究。亚磺酸钠可参与反应合成砜类化合物,已报道的关于磺酰亚甲基氮杂环的合成方法存在许多不足,如金属
在我国大多数地区,自行车作为方便快捷的交通工具仍被广泛使用着,自行车数量估计已拥有4多辆,每天平均600多万辆自行车在道路上行驶。由于自行车数量庞大,加上我国混合交通方式复杂、交通安全意识的薄弱、道路基础设施不完善等限制性因素,使得我国汽车-自行车交通事故高发。从事故受害方的角度分析,自行车使用者的伤亡率远高于机动车驾驶员,造成的负面影响较大。在司法鉴定区域,鉴定是否为骑行的委托较为常见,同时也是
心肌梗死(Myocardial infarction,MI)是威胁国民、甚至世界人类健康的高致死率疾病之一,由其引发的心力衰竭更是全世界人类死亡的主要原因。组织工程心肌补片的提出和发展为MI的治疗提供了新的研究方向,并取得了一定的进展。然而,这种贴片的治疗潜力仍然受到材料毒性或低导电性的限制。其中,导电性直接影响细胞间电信号的耦合和传播。受动物界广泛存在的天然半导体材料黑色素(melanin)所启
胃癌是全球第五大常见恶性肿瘤和第四大癌症死亡原因,调控其发生发展的机制复杂,且发病隐匿恶性程度高。因此,急需阐明胃癌发生发展的分子机制,并研发新的药物靶点治疗胃癌。Long-stranded non-coding RNAs nuclear-enriched abundant transcript 1(LncRNA NEAT1)定位于细胞核内,是paraspeckle(核旁斑)的骨架分子,作为长链非
脓毒症(Sepsis)是宿主对感染反应失调而导致危及生命的器官功能障碍,严重时可发展成为脓毒症休克,甚至多器官功能衰竭。肝脏因为血运丰富,具有代谢、解毒和免疫等功能,使其成为在脓毒症中极易被炎症因子损伤的靶器官之一。肝功能障碍将影响脓毒症患者的预后。脓毒症时炎性细胞如巨噬细胞等被过度激活,使炎症因子如白介素-6(Interleukin-6,IL-6)、白介素-1β(Interleukin-1β,I
越来越多证据表明许多lncRNA能和基因近端和远端的DNA序列特异性结合形成RNA:DNA Triplex,这种结合使得lncRNA能够把组蛋白和DNA修饰酶招募到结合位点附近,进而通过表观基因组修饰调控基因的表达。目前已经有多个预测lncRNA/DNA结合的工具,但是在全基因组范围实现快速且准确的预测仍是一个挑战,缺乏在耗时和准确性两方面皆令人满意的工具。为此,基于前期工作,我们开发了两个预测工