基于机器学习的神经肽前体及其剪切位点的预测

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lhm136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经肽是神经元对适当刺激做出反应而释放的一类长度约5-50个氨基酸残基的活性肽,广泛地存在于中枢神经系统和外周神经系统中,在繁殖、代谢、感觉、记忆、学习等生命活动中起到重要的级联信号激活作用。神经肽来自于神经肽前体蛋白。神经肽前体蛋白由m RNA直接翻译而来,通常由一条信号肽、一个或若干个神经肽序列以及一些其他序列组成。神经肽前体序列经过蛋白酶水解作用和一系列翻译后修饰活动后产生一条或多条成熟的神经肽。在蛋白质序列数量呈指数增长而已发现的神经肽种类有限的大背景下,准确识别神经肽前体序列及其剪切位点对神经科学尤其是神经肽研究的发展具有重要意义。然而现有的神经肽及神经肽前体研究方法主要依赖实验手段,如定点突变、动物实验等。这些方法不仅费时费力,而且发现的神经肽也不多。随着生物信息学的发展,越来越多的计算手段被广泛运用于生命科学研究中,如蛋白质结构建模、RNA相互作用、药物设计等多个领域,神经肽研究当然也不例外。本文应用支持向量机、随机森林等机器学习方法做了以下两个工作:第一,应用支持向量机,以伪氨基酸组分为特征,对从已发表文献中收集到的包含405条神经肽前体序列(作为正样本)405条与神经肽序列长度呈相同分布的非神经肽前体序列(作为负样本)的数据集进行模型构建和预测,该模型预测准确率达到87.14%,AUC为0.9391。第二,应用多种机器学习方法,如支持向量机、随机森林、K-近邻、神经网络等,以序列的氨基酸组分、分布、理化性质等作为特征,利用前一工作中收集到的神经肽前体序列,按照其在Uni Prot中的注释进行一系列数据处理,对得到的937条阳性数据和随机选择的具有相同序列长度和中央氨基酸的937条阴性数据进行模型构建和神经肽前体剪切位点预测工作。表现最好的模型是基于支持向量机并以增强氨基酸组分作为特征构建而来的,其预测准确率达到90.37%,AUC高达0.9576。我们针对该模型开发了一个预测工具Neuro CS。为了方便使用,该工具提供免费在线服务:http://i.uestc.edu.cn/Neuro CS/dist/index.html#/
其他文献
抗体广泛用于各类疾病的预防、诊断与治疗。单克隆抗体(monoclonal antibody,m Ab)的研发已成为生物医药行业的热点。目前,候选抗体研发真正的成功率大概在万分之一水平,即便进入临床阶段,成功开发上市的抗体药物数量也仅能达到进入临床试验阶段抗体药物数量的15%左右。候选单克隆抗体能否开发成功与其理化性质息息相关。不少抗体由于表达差,稳定性和溶解度低,粘度高,易聚集等最终导致开发失败。
肿瘤细胞具有形态可塑性,其可以响应微环境的改变,并适应自身需求展现出不同的几何形态。肿瘤细胞实现其可塑性的同时,还能将所感知的外部机械信号通过依赖细胞骨架的机械转导传递至细胞核,通过力-生化转导途径调节基因的表达。因此,不同几何形态的肿瘤细胞可能具有其独特的生物学特性与功能。癌症难以治愈的主要原因在于预后差、易复发,这与肿瘤细胞具有的自我更新能力密切相关。然而,肿瘤细胞的几何形态是否与其自我更新能
落叶松(Larix kaempferi)具有抗逆性强、快速成林、抗病虫害及生态效益良好等特点,是我国重要的纸浆材及建筑材树种。随着全球森林覆盖率的下降及社会经济发展对林木需求的日益增长,通过分子改良策略培育落叶松优良品种、加快造林工程的相关基础研究及应用实践工作受到研究者越来越多的关注。基因组编辑技术的出现给落叶松基因组功能基础研究及分子育种实践带来了新机遇,但由于落叶松分子生物学基础研究及基因组
恐惧是人类的基本情绪类型之一,也是人类在面临环境威胁时的适应性反应,发现及避免潜在的威胁对人类及其他物种的生存至关重要,因此,恐惧在人类的生存和发展中有着重要的作用。然而,过度、持久的主观恐惧会导致包括焦虑症、恐惧症及创伤后应激障碍等在内的各种精神类疾病,了解恐惧的神经机制对这些精神疾病的治疗具有重要价值。传统的功能磁共振(functional magnetic resonance imaging
必需基因是对物种的生存和繁殖起重要作用的基因,在破译生命的存活机制中发挥着重要的作用。随着机器学习和生物信息学的发展,研究者在人类和细菌必需基因的预测上已经取得了较好的成果,但是对于酵母必需基因的预测却没有达到像人类和细菌那么高的准确率。本文提出了密码子特异虚拟寡核苷酸的特征提取方法。这种特征提取的方法考虑邻接和间隔关联的序列,假设间隔一段距离的核苷酸之间也存在相关性,这种相关性正是在染色体的三级
自闭症谱系障碍(ASD)是一种神经发育障碍疾病,其特征是社交障碍、沟通障碍、兴趣限制和重复行为。注意力不集中/多动障碍(ADHD)表现为与年龄不匹配的注意力缺失,过度好动以及易冲动。两种疾病在人群中很常见,研究表明在自闭症谱系障碍占据总人群的1.5%,而ADHD则影响全球约10%的学龄儿童,ASD和ADHD在日常生活中存在困难,并经常并发各种疾病,因此早期诊断和治疗尤为重要,以防止发展为继发性精神
乳腺癌是威胁女性生命健康的重要疾病,乳腺癌细胞的扩散转移是治疗失败的主要原因之一。在癌细胞入侵建立远处的转移性肿瘤过程中,细胞必须通过细胞间连接处,细胞外基质和基底膜的狭窄环境迁移。狭窄环境下的细胞迁移需要细胞的变形。细胞核是最大、最硬的细胞器,因此,它能抵制巨大的形状变化。因此,细胞核变形能力是通过狭窄环境迁移的限制因素。Nesprin-1/2提供了细胞核与细胞骨架之间的机械联系,研究发现它们调
精氨酸酶(Arginase,ARG)是一种锰金属酶,它催化尿素循环的最后一步,将L-精氨酸(L-arginine)分解为L-鸟氨酸(L-ornithine)和尿素(urea)。ARG包含精氨酸酶1(ARG1)和精氨酸酶2(ARG2)两种亚型,哺乳动物中ARG1定位在胞质中,ARG2则是定位在线粒体中。近年来ARG被发现与心血管系统、肾脏和中枢神经系统的功能障碍和病理相关,并被证明在炎症引发的免疫功
黄瓜(Cucumis sativus)为葫芦科(Cucurbitaceae)黄瓜属(Cucumis)植物,广泛分布于世界各地,是主要的蔬菜品种,也是重要的双子叶植物基因组结构及功能研究模式材料。但由于黄瓜本身具有的遗传基础狭窄及育种年限较长的特点,使得常规遗传操作技术在黄瓜中难以取得突破性的进展,极大影响了黄瓜功能基因组基础研究及分子育种实践。随着以CRISPR-Cas基因组编辑技术为代表的植物基
电子动量谱学(EMS)是研究原子分子中电子结构和碰撞动力学的强有力的工具,其独特优势在于能够同时测量轨道电子的结合能和电子的动量分布。利用高性能的第三代电子动量谱仪,可以深入挖掘过去未能发现的实验现象,结合相关理论研究,进而揭示这些现象背后深刻的物理规律。论文编写了新的高斯拟合程序,并作了详细说明。实验数据处理过程中关键的一步是用高斯拟合方法对能量-角度二维谱的剥谱处理。新程序使用方便可靠,大大降