【摘 要】
:
抗冻蛋白在多个领域都具有广阔的应用前景。随着后基因组时代的到来,各种数据库收录的蛋白质序列数据日趋完善,促进了生物信息学的发展。当前,许多研究小组致力于研究生物序列提取算法、特征选择以及分类算法的研究,并成功将其应用蛋白质结构和功能谱的分类和预测中,但在抗冻蛋白领域鲜有研究。基于此,本文主要针对抗冻蛋白的特征表达方式以及特征选择方法进行了深入的研究,并从多方面进行试验加以论证。本文的主要工作总结如
论文部分内容阅读
抗冻蛋白在多个领域都具有广阔的应用前景。随着后基因组时代的到来,各种数据库收录的蛋白质序列数据日趋完善,促进了生物信息学的发展。当前,许多研究小组致力于研究生物序列提取算法、特征选择以及分类算法的研究,并成功将其应用蛋白质结构和功能谱的分类和预测中,但在抗冻蛋白领域鲜有研究。基于此,本文主要针对抗冻蛋白的特征表达方式以及特征选择方法进行了深入的研究,并从多方面进行试验加以论证。本文的主要工作总结如下:第一,针对抗冻蛋白的特征表达。首先,本文基于所选背景抗冻蛋白序列的研究,提出了一种改进的序列特征提取方法即加权广义二肽组成(W-GDipC),该方法通过线性加权融合两种特征表达-广义二肽组成(GDipC)和二肽组成(DipC)。再次,本文还对加权融合表达式中的融合系数展开了讨论,融合系数范围在0-1之间,每次增加十个百分点。最后,本文通过五折交叉验证分别构建了具有不同特征的支持向量机(SVM)和决策树(DT)以及随机梯度下降(SGD)分类器与加权广义二肽组成(W-GDipC)特征提取方法进行对比实验论证。第二,针对抗冻蛋白的特征选择。首先,本文引入机器学习方法中四种常用的特征选择算法套索回归(Lasso),岭回归(Ridge),互信息和最大信息系数(Mic)和过滤式选择(Relief),分别对高维抗冻蛋白特征表达进行处理。其次,本文进一步提出了基于岭回归的集成特征选择(LRMR-Ri)方法。最后,本文将改进的特征选择方法与原始特征选择方法分别在抗冻蛋白数据集(二分类)上与膜蛋白数据集(多分类)使用不同的分类算法进行了实验,并基于五种评价指标通过五折交叉检验客观验证该方法的有效性。最终的实验结果表明,我们所提的加权广义二肽组成方法不仅能够保留两种单一特征的重要特性,而且又丰富了抗冻蛋白序列的特征表达。其次,本文所提的基于岭回归的集成特征选择方法能够在一定程度上避免产生局部最优或次最优特征子集,更大程度地筛除冗余特征,提炼出更有效的抗冻蛋白特征子集。
其他文献
定位精度是机载激光测深雷达系统的关键性能指标之一。计算分析表明,安置误差是决定机载激光测深雷达系统定位精度的主要因素,因此建立可靠的安置误差标定模型、设计对应的安
在能源短缺和环境污染的时代背景下,利用光催化材料将太阳能转变成特定的化学能是一种具有前景的技术手段。然而,光生载流子的复合严重地降低了材料的催化活性,限制了光催化
胶原纤维(CF)是废弃动物质资源的主要成分,来源广泛、价廉易得,具有特殊的化学特性和天然的介观结构,其分子上丰富的活性基团易与植物多酚和Ti4+等金属离子结合。而杨梅单宁(
固体氧化物燃料电池(SOFC)是一种高效、清洁的能量转换装置,可以将燃料中的化学能直接转换为电能。目前,有关SOFC的研究主要集中在改性现有阴极以提高其结构和化学稳定性,以及开发新型的中低温阴极材料和抗积碳抗硫毒化的阳极材料。(La0.8Sr0.2)0.95MnO3-δ(LSM)阴极材料具有高电子导电性、显著的氧还原催化活性和结构稳定性等优点,是一种备受青睐的传统SOFC阴极材料。为了改善LSM在
随着互联网产品和服务的快速发展和多样化,以活动为主的社交网络(Event Bsaed Social Network,EBSNs)也得到了快速的发展。在EBSNs社交平台上频繁产生着大量的各种各样的活动
社会的快速发展为我们生活带来诸多改变,随着我国经济的高速发展,环境保护与环境治理的形势日渐严峻。基于此背景,我国在生态文明建设过程中不断采取新措施以改善这种情况,其中之一便是创设《中华人民共和国环境保护税法》(下文简称“环保税法”)。该法的制定与实施是环境污染治理的重要举措,也是我国开展环境治理工作的重要前提。我国现行环保税法的创设是基于将污染费平移的“费改税”方式,使得环保税其自身特别是税目方面
GPS以其全天候、高精度、实时性等优点广泛应用于地壳形变、地球动力学、地震学等领域研究中。随着全球永久性GPS连续观测站的密集建设,以及GPS数据处理精度的不断提高,GPS能
随着下一代测序技术(Next Generation Sequencing,NGS)的发展和逐步普及,基因测序变得越来越快速,费用也越来越亲民。基因组序列数据正以爆炸性的速度扩增,因而产生了海量基因组序列数据。传输,存储,处理和分析这些数据的时耗和费用日渐成为制约基因组学和生物医学发展的瓶颈。虽然现有许多通用的数据压缩算法和软件,但由于不能考虑和处理基因组序列数据的固有特性,它们不能高效地压缩基因组
间断神经网络因其激励函数的不连续性而具有更丰富的动力学行为,诸如全局有限时间稳定与同步等。本文将随机semi-Makovian过程引入到间断神经网络中,主要研究了具有semi-Makovian切换和间断激励函数的神经网络全局随机有限时间同步问题。主要内容包括:1.针对具有semi-Makovian切换的随机非线性系统,应用Lyapunov-Krasovskii泛函方法、随机分析理论以及不等式分析方
随着复杂网络研究的深入发展和研究领域的不断拓展,将复杂的系统抽象成复杂网络来研究,建立系统模型再结合复杂网络系统理论研究具体问题,已成为研究复杂系统的重要方法之一。复杂网络系统节点的同步现象普遍存在于各种复杂系统中,因此研究复杂网络的同步控制问题具有很重要的实际意义和理论价值。随着科学技术的发展,在控制系统中使用计算机有效地控制设备已成为一种普遍的趋势。计算机输入信号必须是离散的,而采样控制就是把