基于CLIP数据的RBPs靶向位点与motif识别算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zjr_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA结合蛋白(RBPs)在生物的基因表达过程中起着非常重要的作用,RBPs通过结合RNA的位点影响成熟mRNA的形成,从而影响生物蛋白质的合成。随着分子生物学和相关技术的发展,人们逐渐认识到RBPs与RNA的结合具有特异性,也就是说特定的RBPs对某些RNA位点具有更高的亲和性。目前确定RBPs靶向位点的技术包括体外选择和RNA共免疫共沉淀,如交联免疫沉淀反应技术(CLIP),不幸的是,这些实验是冗长而困难的,都需要大量的时间和人力投入。另外,传统的统计学方法在这个领域的应用存在预测性能一般且模型的可解释性弱的特点,无法为人们提供有效指导。所幸近年来以深度学习为代表的计算机技术迅速发展和CLIP技术的成熟,为研究RBPs靶向位点识别展现新的机遇。本研究是以17种人类RBPs对应的CLIP数据为基础,利用深度学习的方法构建预测RBPs靶向位点的模型,并且对RBPs结合的motif也作出预测。本文具体的工作如下:1)数据的获取及预处理。本研究使用的数据来自iCount和DoRiNA数据库,在获取时,我们使用峰值采样获取显著的CLIP数据以尽量排除假阳性数据。然后基于序列数据的基础上,我们使用了RNA折叠等技术获取序列的其他维度数据,例如Structure二级结构数据、CrossBindinng和RegionType数据。2)仅仅在序列数据的基础上提出了 SOCN模型,SOCN模型以序列的one-hot编码为输入,利用卷积神经网络自动对序列信息进行特征抽象,避免人为的干预和选择,再经过全连接层和Softmax层,对输入信息做出分类。SOCN模型在基准数据集的平均AUC值达到0.823,性能较优于其他的模型。3)通过对SOCN的结果分析发现对于某种特定的RBPs,其分类效果欠佳。经过分析发现是因为这种RBPs倾向结合具有结构化的序列,因此在SOCN的基础上有提出多数据源的混合模型(MSM),该模型以多种数据为输入,其中除了序列信息外,还包括CrossBinding、二级结构数据和RegionType数据。最终,MSM模型在同样的数据集上克服了SOCN模型的缺陷,以平均AUC值0.90成为最佳模型,相较于SOCN、iONMF和Oli模型分别提高了 10.9%、12%、和13.9%的性能。4)鉴于MSM模型出色的性能,我们深入研究了模型参数。MSM中卷积核类似于一个motif扫描器,能识别出显著序列特征,然后将该卷积核识别的显著序列特征集转换为一个motif,并用WebLogo工具可视化。最后使用Tomtom算法将预测的motif与数据库进行比较,结果表明,78%的预测motif能以高置信度匹配数据库。
其他文献
面对家庭联产承包责任制日渐暴露的缺陷和我国农业现代化发展、保障国家粮食安全的要求,能够优化配置各项生产要素,解放农村剩余劳动力,提升农业技术和农产品国际竞争力的农
日本NKK公司准备开展土壤改善业务。该公司已签订了有关使用美国BioGenesis Enterprises公司开发的工艺技术的协议。据NKK报道,该工艺使用高压水粉碎土壤,并应用生物降解表面活
辽西北地区位于辽宁省的西北部,其气候资源、土壤条件极其适于甜菜的栽培,近年来,甜菜作为辽西北地区的主要种植作物,有力地促进了辽西北地区的农业产业化的发展。但是,随着
羊年伊始,中国金融监管高层当头棒喝:洗钱者,住手!2003年1月14日至16日,新任中国人民银行行长周小川签署了中国人民银行第1、2、3号令,连续颁布了《金融机构反洗钱规定》、《人民币
<正>随着中考命题改革的不断深入,近年来各地中考试题均加大了对化学实验内容考核的力度.过去那种单靠死记实验步骤和实验原理的模式化试题,如今已很难看到,取而代之的是各种
通过制作大面积GaN肖特基X射线探测器,研究了GaN肖特基探测器对X射线的时间响应特性。实验采用Fe掺杂的高阻自支撑GaN片来制备器件,对不同偏压下的时间响应进行了测试。针对所