【摘 要】
:
本文基于计算机技术和生物学原理,以蛋白质序列中蕴含的生物信息分类为依据,对蛋白质中α类、β类、α+β类及α/β类中样本数量较多的27类折叠子类型进行识别研究,提出了一种基
论文部分内容阅读
本文基于计算机技术和生物学原理,以蛋白质序列中蕴含的生物信息分类为依据,对蛋白质中α类、β类、α+β类及α/β类中样本数量较多的27类折叠子类型进行识别研究,提出了一种基于统计量“矩”的特征向量表示法,并进一步构建IDAG-SVM多分类器进行识别,其主要研究为以下几方面:
第一,提出了矩描述子特征向量表示法。在研究了Dubchak特征向量表示法的基础上,利用统计学中的“矩”来描述氨基酸残基的顺序和位置信息,构建了矩描述子特征向量集。“矩”的引入,克服了Dubchak不能描述蛋白质氨基酸序列的顺序和耦合信息的缺点,使得新特征向量表示法能够有效的描述氨基酸组成、顺序和耦合信息等重要蛋白质序列特征。
第二,设计了IDAG-SVM多分类器。对常见支持向量机多类分类算法(“一对多”、“一对一”和有向无环图DAG)的原理和优缺点进行研究和分析。在此基础上,引入了一种以类样本分布情况生成有向无环图思想,提出改进的有向无环图多分类算法(IDAG),用于蛋白质折叠子识别领域。
第三,通过实验,验证提出的矩描述子特征向量表示法和IDAG-SVM多分类算法。结果表明,本文采用的预测结果优于Ding等人的预测结果[1],总体预测精度从Ding等人的56.0%提高到60.7%。同时对“一对多”、“一对一”、DAG和IDAG四种支持向量机多分类算法进行性能横向比较分析,比较了四种算法的分类效果,通过实验证明本文提出的IDAG多分类算法在性能上,优于其他三种多分类算法。
其他文献
特征选择是模式识别系统中非常关键和重要的部分,它不仅对于人类开发和认识未知世界、找到未知事物的联系能够发挥较大的作用,而且对于构造一个实际的模式识别系统也起着至关重
目前,计算机可以说是各行各业都无法离开的工具,这使得计算机软件、硬件技术都呈现出高速发展的态势,与此同时,互联网络的发展也极为迅速,越来越多的企业甚至是个人用户开始
信息时代中,各行各业对高性能计算提出了迫切的需求,这一问题在金融业、半导体工业、生命科学等领域显得尤为突出。然而,广义的网格计算是面向整个互联网的,由于其自身的复杂
自动导航技术是自引导车(AGV)和移动机器人系统的关键部分。基于视觉的导航系统能够良好的应用于室内和室外环境,而无须建立额外的辅助设施。然而,环境中需要包含一些能够被
数字签名在信息安全,身份认证,数据完整性,不可否认以及匿名性等方面有广泛的应用,尤其在大型网络安全和电子商务系统中占有重要的地位,是现代密码学中主要研究内容之一。数
栅格技术已经成为未来分布计算技术发展的趋势,尤其在军事信息技术领域,栅格技术能极大地提高军事信息系统的应用能力。为占有信息优势,并将已获得的信息优势转化为决策优势,
光的空间巨并行性使得光学计算能拥有很高的数据宽度,依据最新研究成果——降值设计理论[2],三百位量级三值逻辑光学运算器模型已经研制成功。因此,如何管理三值光计算机高数据
在国内外,基于计算机视觉技术的影像测量系统已经得到了深入的研究,受到了越来越多的重视。目前,工业领域中对微小尺寸零件的检测精度和检测速度等要求越来越高,传统检测方法
本文提出了基于LUT的FPGA的时序分析方法和后仿真的设计方案,并予以实现。时序分析和后仿真是在布局布线基础之上进行的,是FPGA支持软件系统不可缺少的两个步骤。在时序分析
近年来,随着语音识别理论研究的深入和数字信号处理软、硬件技术的发展,语音识别技术的研究越来越受到人们的关注。另外,嵌入式技术的发展,使嵌入式语音识别技术成为语音识别