基于机器学习的生物大分子功能注释研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:bingke111888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于高通量测序技术的迅猛发展,海量未经注释的非编码RNA和蛋白质序列产生并被收录在公共数据库中,对这些数据进行注释是目前生物信息学领域重要的待解决问题之一。其中,非编码RNA在基因表达过程中发挥重要作用,也在癌症、神经系统等疾病的发生发展过程中担任着重要角色。因此,对非编码RNA的识别和鉴定有助于了解其在疾病发展过程的作用,进而发掘其成为疾病标志物或药物靶标的潜力。另一方面,蛋白质参与了绝大部分生命体的活动,在体内担任多样的功能。探究蛋白质的功能能够有效推进人类对生命过程的认识,并为创新药物的研发提供新的药物靶标。目前Tr EMBL数据库中存有超过2亿个蛋白质序列,经由实验验证的蛋白质功能注释仅有不到1%,通过计算方法预测蛋白质功能已经成为蛋白质功能注释的一种重要手段。如今人工智能领域的机器学习算法的快速发展使得基因产物的批量预测成为可能,然而这需要研究人员开发高效快速和可靠的算法模型辅助序列注释的进行。本研究为非编码RNA和蛋白质功能的注释研究开发了可靠的机器学习和深度学习方法,主要包括以下两个部分的工作:1.构建了在线网络服务工具CORAIN,为非编码RNA的注释和相关反应预测提供了在线的计算平台。首先,本研究从非编码RNA的三个角度(序列、物化性质、结构)出发提供了非编码RNA较为全面的特征提取方式,并且利用自然语言模型建立了新的特征编码方式。这些编码方式能够用于传统机器学习算法和深度学习算法模型的构建。其次,本研究开发构建了在线网络服务工具CORAIN,该工具可以实现非编码RNA的多种注释,包括非编码RNA的鉴定和分类、非编码RNA之间的相互作用、非编码RNA与蛋白质以及小分子的相互作用预测分析。最后本研究建立了模型的评价体系,实现了对预测结果的可视化呈现,用户可以根据自身需求筛选综合表现最好的编码方式。CORAIN涵盖了特征提取、特征整合和分类器构建以及性能评估和效果展现的一体化流程,能够为非编码RNA领域的研究者提供机器学习算法(SVM)和多种深度学习算法(CNN、DNN、RNN、Auto Encoder),从而推进非编码RNA研究进程。2.基于基因本体论(Gene Ontology,GO)提出了一种新的蛋白质功能注释工具PFmul DL。本研究将多层卷积网络和多层门控网络首次结合用于蛋白质功能注释问题。首先,研究中将独热编码方式作为模型的输入,神经网络在训练过程中通过不断映射能够学习到输入和标签的隐藏联系。其次,在模型训练过程中本研究引进了迁移学习的训练方式,该训练方法通过预训练和微调改善了模型的最终表现。与现有的蛋白质功能注释方法在独立测试集上的表现进行比较,本研究所构建的PFmul DL工具在Fmax上的表现普遍更优。除此之外,PFmul DL方法能够预测超过5800个家族,是目前能够同时预测家族数目最多的注释工具。为了进一步探讨模型在不同样本量家族的预测表现,本研究按照GO的结构可以将蛋白家族分成10个层级,并提出了一种针对GO层级进行评价分析的方法。在与其它方法的比较中,发现PFmul DL能够提升低样本量蛋白家族的预测效果。因此,PFmul DL或能够成为蛋白功能注释工具的重要补充。
其他文献
介绍某线材二分厂加热炉均热段供热配置和加热环节的氧化烧损升高现象,分别从设计和加热操作两个方面对加热炉氧化烧损升高原因进行分析,根据分析结果改进了蓄热式烧嘴喷口设计,强化了加热炉加热操作管理。生产运行表明:改进措施合理有效,加热炉氧化烧损明显降低,完全满足线材厂生产要求。
期刊
目的:探讨阻塞性睡眠呼吸暂停低通气综合征(Obstructive sleep apnea syndrome,OSAHS)与纤维蛋白原与白蛋白比值(fibrinogen to albumin ratio,FAR)的相关性。方法:选择114例睡眠障碍患者,参照呼吸暂停低通气指数将患者分为四组(轻度睡眠呼吸暂停组、中度睡眠呼吸暂停组、重度睡眠呼吸暂停组和对照组),观察各组间白细胞、纤维蛋白原与白蛋白比值
学位
采用单位重量比表面积相似法对某厂三座加热炉的氧化烧损率进行了测试。结果表明,蓄热式燃烧加热炉的氧化烧损率低于常规脉冲燃烧加热炉的氧化烧损率;针对蓄热式燃烧加热炉,沿板坯长度方向,氧化烧损率近似呈“M”型分布,即中部低、端部次之、中部和端头之间最高,这主要与烧嘴的布置以及气体介质的射流速度相关;采用蓄热式燃烧技术、精细化操控炉温、强化炉体保温等是抑制加热炉氧化烧损率的有效措施。
期刊
背景:胆囊炎和胆囊结石是肝胆外科常见的胆道疾病,针对这类疾病的治疗,目前临床上首选的是腹腔镜下胆囊切除术(laparoscopic cholecystectomy,LC)[1,2],LC作为微创术式,但在其术后随访观察中,相当比例的患者仍认为存在中至重度的疼痛,而完善的围术期镇痛治疗有助于患者术后快速康复,投入正常的工作和生活中。竖脊肌平面阻滞(erector spinae plane block
学位
目的:探讨I-II期子宫内膜异位症合并不孕患者宫腹腔镜术后自然妊娠的影响因素。方法:对2018年1月至2020年9月期间在新疆医科大学第一附属医院生殖医学中心因不孕接受宫腹腔镜手术的妇女资料进行分析。比较EMs患者不同分期自然妊娠情况的差异,并分析I-II期EMs患者术后自然妊娠的影响因素。结果:本研究中总共纳入253例不孕患者,随访242例;其中发现合并EMs可达49.01%;术中探查EMs分布
学位
<正>学校的心愿墙边,每一位"天使"都默默关注着自己的"国王",他们不经意的小小心愿,都会成为天使们努力的方向。教育,方为毕生事欧阳亚林的从教生涯,与一般教师相比,大为不同,可谓一咏三叹。1980年,18岁的欧阳亚林踏进了湖南省第一师范学校的大门,那是毛泽东的母校。彼时,她的脚步轻快而从容,尽管对未来要从事的职业还不甚明晰,但是她认为自己读师范是顺理成章的事儿——她的父母都是教师,从小耳濡目染。说
期刊
目的:初步探讨针对胆囊结石行经胃自然腔道内镜手术(TG-NOTES)治疗的疗效及临床应用的意义,以寻求对相关疾病进行疗效更好的微创治疗方案。方法:收集我院在2020年11月至2021年11月期间收治的53例胆囊结石患者的临床资料,利用回顾性分析方法来分析其一般资料、术前及术后3个月超声随访结果、术后短期并发症以及术前术后症状改善情况等,整理资料后对相关观察指标进行特定地统计学分析,分析并总结出TG
学位
DJ-1蛋白是一种抗氧化应激的多功能蛋白,具有神经细胞保护功能,与阿尔兹海默症、帕金森病等神经退行性疾病相关。同时,DJ-1也被认定为一种肿瘤因子,在多种肿瘤细胞中过表达,促进肿瘤细胞增殖。有效抑制DJ-1的生物细胞保护功能将可能是一种肿瘤治疗的新途径。研究表明DJ-1蛋白具有乙二醛酶活性,适合经典的酶学分析,因此可以通过乙二醛酶活性测定化合物对于D J-1蛋白的抑制效力。然而,缺乏有效的DJ-1
学位
目的:通过分析、对比单相与双相抑郁障碍的临床特征及外周生物学指标之间的差异,探索单、双相抑郁障碍早期诊断的临床及生物学标志物,提高对双相障碍的识别率和诊断率,改善双相情感障碍患者的病情预后和诊疗效果。方法:以2020年1月至2021年9月新疆医科大学第一附属医院心理医学中心的住院患者(诊断为抑郁症和双相情感障碍抑郁发作)为对象,其中单相抑郁组197例,双相抑郁组141例,采取独立样本t检验、秩和或
学位
多重耐药肺炎克雷伯菌(Multidrug-resistant Klebsiella pneumoniae,MDR-KP)是引起肺部感染的重要病原菌,其高病死率给临床治疗带来巨大挑战。替加环素(Tigecycline,TIG)是治疗MDR-KP感染的重要药物之一,但由于其耐药率增加常导致临床治疗失败。外排泵基因高表达是多重耐药肺炎克雷伯菌替加环素耐药的重要机制。纳米递药技术是克服肺炎克雷伯菌替加环素
学位