生物序列特征编码技术研究与应用

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:peterwei2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生命科学和计算机科学的迅猛发展,生物信息学孕育而生,并得到快速发展。序列特征编码是生物信息学的一个重要的内容,被应用于生物序列中学习生物序列有意义的数值表示。本文提出了三种序列特征编码方法,应用于三个生物信息问题:首先提出一种基于深度哈希学习的方法以进行蛋白质-蛋白质交互作用预测,然后提出一种基于深度学习和分类树Embedding的方法,用于微生物序列分类问题,最后对Seq Rank进行改进,将生物序列映射到一维特征空间,用以确定中心序列,并将其应用于解决多序列比对问题。主要工作结果如下:(1)基于深度哈希学习的蛋白质-蛋白质交互作用预测方法。为了解决大多数方法需要通过成对比较的方式对蛋白质之间的相互作用关系进行判断而带来的效率低下的问题,本文提出了一种基于深度哈希学习的蛋白质编码模型DHL-PPI,将蛋白质序列编码为二值哈希码,然后利用哈希码进行PPI预测,将PPI判别问题转化为检索问题,避免了蛋白质序列的成对比较,从而提高了检索效率。实验表明,本方法能够较好地识别出具有交互作用的蛋白质对,并且能降低成批蛋白质交互作用预测的时间复杂度。(2)基于深度学习和分类树Embedding的微生物序列分类方法。为了解决现有的基于深度学习的生物序列分类方法的参数量大,且需要设计并训练多个模型的问题,本文提出了一种基于深度学习和分类树Embedding的微生物序列分类方法BSC-TE,首先应用node2vec生成各个分类单元的向量表示,然后应用深度学习模型对微生物序列向量进行编码,生成序列的向量表示,最后根据序列的向量与各个属的向量之间的余弦距离,预测序列对应的属,并分别使用自底向上分类策略进行序列分类。实验表明,本方法能够准确高效地在各个分类级别上对微生物序列数据集进行分类。(3)基于Seq Rank的星比对中心序列查找算法。针对现有方法在确定中心序列时,时间复杂度开销大且找到的中心序列代表性不足的问题,本文对查找中心序列用于星比对的方法Seq Rank进行改进。在本方法中,首先通过二部图随机游走模型计算序列权重,然后将权重最高的序列作为中心序列,最后将中心序列与其他序列进行成对比对,完成多序列比对。本文提出的方法时间复杂度为O(NLlog2NL),其中N是序列数目,L是序列的平均长度,大大降低了星比对中确定中心序列所耗费的时间。且经过实验验证,本方法所查找到的中心序列用于多序列比对,效果均优于所比较的方法,证明了本方法的有效性。
其他文献
根结线虫是在世界范围内普遍发生的一种常见植物病原线虫,对全球农业造成巨大损失。有研究发现施加氮肥、有机肥可以有效减少根结线虫病的发生,以及在植物根结内发现固氮菌群的特异性富集。因此通过研究不同氮源和有机肥对根结线虫病发生,以及对番茄根内根际微生物的菌群、固氮菌群的影响,分析植物内生固氮菌群在根结线虫侵染过程中的功能,揭示氮源、有机肥减少根结线虫病的防控机制,对理解根结线虫病的发生机制以及开发新的线
乡村文化建设是社会主义新农村建设的重要内容,乡村文化的现代性转型关系着乡村振兴的绩效水平。随着中国特色社会主义事业的不断推进,中国的乡村文化建设取得很大成绩,但是仍面临着不同程度的问题和挑战。要从总体原则、思想统揽、主体支撑、经济基础、服务保障、文化传承六个维度推进乡村文化的现代性转型,使乡村群众真正拥有精神家园和心灵归宿,凝聚乡村振兴强大的文化驱动力。
电催化二氧化碳还原反应(CO2RR)是一种有效转化二氧化碳、变废为宝的新兴技术之一,通过电化学方法将二氧化碳转化为有价值的工业燃料或原料,是建立新的碳循环的重要手段。本文以炭黑(C)、碳纳米管(CNTs)以及碳纤维(CF)为载体,将铜(或铜氧化物)与另一组分(SnO2、Bi、Ag)复合,合成了一系列电催化CO2RR的铜基催化剂,探究了第二组分的引入对铜基催化剂催化性能的影响,取得的主要研究结果如下
非线性光学与激光技术紧密结合,广泛应用于日常生活及工业生产之中。实现激光光源从红外区到深紫外区的连续可调一直是激光技术领域追求的目标,而依靠非线性光学晶体的变频功能拓宽激光光源的可调谐范围是首选的方法。因此,非线性光学晶体的发展对激光技术、光通信、国防、医疗、工业等领域都具有深远的推动意义。性能优异的非线性光学晶体,应满足具有较大的倍频效应、较宽的光学带隙以及可实现相位匹配的适当双折射等基本条件。
植物功能性状在一定程度上反映了植物对所处环境的响应,可用于表征植物对外部环境的适应和存活策略。蕨类植物作为起源最古老的维管植物,代表了维管束植物一条独特的进化路径,在整个森林生态系统的结构及功能维持中均具有重要地位。然而,目前大部分植物功能性状的研究均集中于种子植物,有关蕨类植物功能性状及其对环境的响应还有待进一步深入。江西武夷山脉保存了典型的中亚热带原生性森林生态系统,蕨类植物资源的分布十分广泛
二十世纪末全球经济开始飞速发展,伴随经济发展而来的环境污染问题也愈发严重,其中环境水体中的有机物污染更是直接威胁到动植物体的健康。目前,研究人员开发了许多材料和处理方法被广泛应用于环境水处理中。本论文中,将不同性质的纳米材料制备为复合材料,并联用高级氧化技术和微生物处理技术对水体中的典型有机物进行降解去除,突破了单一纳米材料在水处理过程中的局限性。首先,将具有高孔隙率和比表面积的ZIF-8材料与具
核心素养教育背景下,对学生综合运用知识解决真实情境问题的能力有了更高的要求,可见情境创设是当前教学改革和评价改革的重要内容。情境化试题是当前高考试题中的主要形式,在评价学生生物学核心素养上具有重要作用,而高考是高等院校选拔优秀人才的主要途径,对教育起着重要的导向作用,高考试题的质量影响着人才培养的质量,当前关于试题情境化的研究主要集中在语文、化学、物理等科目上,对于有关生物学科的试题情境化的研究较
由金属离子与有机桥联配体通过配位键导向的自组装反应构筑的配位分子笼具有独立的纳米空腔,可以包容一个或多个客体分子,因此其在分子分离、分子传感、分子催化以及药物传输等方面具有较为广泛的应用,是当今超分子化学的研究热点之一。由于传统的配位分子笼空腔结构单一、稳定性和生物相容性不理想,大大限制了其在生物医学领域的应用。本论文以近年来发展的一类新颖的、具有内、外多重空腔结构的砜桥杯[4]芳烃基配位分子笼为
在各省新高考改革方案相继出台的同时,我国教育部颁布了《高考评价体系》和《高考评价体系说明》,作为新高考命题的理论指导和实践依据。化学实验是化学学科的关键组成部分,从化学实验衍生出的化学实验试题的命制情况,不但在很大程度上决定了整份试卷的命制水平,而且对化学教学实践和即将实施新高考省份的实验试题命制也起到导向和借鉴作用。本文以浙江省、山东省、海南省、天津市和北京市的新高考化学实验试题为研究对象,以高
开展旧镇湾潮间带大型底栖动物群落结构研究,能切实了解旧镇湾潮间带大型底栖动物群落的种类组成、季节间群落结构演变情况,为日后旧镇湾潮间带的生态研究提供新的参考和科学依据。本文通过2020年5月~12月(四个季节)分别对旧镇湾潮间带进行大型底栖动物采样和生态调查,实验室鉴定种类。沿旧镇湾潮间带海岸设置6个调查断面,依次为GZJZC1、GZJZC2、GZJZC3、GZJZC4、GZJZC5和GZJZC6