论文部分内容阅读
蛋白质结构分析的经典方法是x射线晶体学和多维核磁共振技术。这些技术昂贵、费时,甚至有些蛋白质根本无法用这些方法测出结构;而另一方面,蛋白质测序则显得相对简单、快捷和廉价。因此导致已知序列的蛋白质数量与已知结构的蛋白质数量的差距变得越来越大,迫使人们应用多种模拟技术对蛋白质的结构进行了广泛、深入的研究。经过近30年的研究和发展,蛋白质结构预测的准确率仍然只维持在65%~85%之间。在人类已进入后基因时代的今天,许多未知功能的蛋白质急需进行研究。如何根据蛋白质的结构或仅从序列信息出发来预测蛋白质的功能成为了一个迫切需要解决的问题。以往人们对于蛋白质功能预测主要集中在对于单个或某些特定蛋白质功能的预测上,难以满足生命科学发展的需要。如果从序列决定结构、结构决定功能这条思路出发,先以序列预测结构,再据此预测/推定功能的方式来预测蛋白质的功能,受目前蛋白质结构预测准确率偏低的影响,其准确率无疑又将大打折扣。根据蛋白质结构、功能的预测研究的现状,本文提出从组成蛋白质的氨基酸的物理、化学性质出发,应用机器学习方法—支持向量机(Support Vector Machine, SVM),直接基于蛋白质序列大规模地预测蛋白质的功能。本文利用随机梯度上升算法构建了一套通用二类分类器-SVM★。应用声纳数据集及多组蛋白质分类数据集,将SVM★与基于SMO(Sequential Minimal Optimization)算法的SVMlight和基于QP(Quadratic Programming)算法的SVM-QP同类软件进行了比较研究,结果表明:SVM★的分类性能均优于SVMlight和SVM-QP。创建了简洁、实用的网上在线通用二类分类软件SVM★网站和网上在线蛋白质功能预测服务软件SVMProt。首次应用支持向量机算法系统地研究了大量的功能蛋白质家簇的分类问题。对包括酶蛋白在内的69个蛋白质功能家簇进行了样本采集和基于序列的分类研究。经过对完全独立评价样本集的测试及测试结果置信度的统计表明:SVMProt具有很强的蛋白质功能识别本领,其识别准确率在80.5%~99.7%之间。进一步深入研究发现,SVMProt还突破了基于序列比对的蛋白质分类的瓶颈问题,它可以在一定程度上预测具有不同功能的同源蛋白质的功能及具有相同功能的远缘蛋白质的功能。<WP=6>应用SVMProt对SARS冠状病毒的3个蛋白质(E protein, N protein和ORF13)进行了预测,结果显示:E protein是一种能与膜蛋白结合的蛋白质,N protein是一种能与RNA结合在一起的蛋白质,两结果与实际事实完全吻合。SVMProt将未知功能的ORF13预测为一种可能结合到DNA上的核蛋白并兼有病毒体内结构蛋白质的功能,这一结果对治疗SARS疾病的药物研制工作人员具有一定的理论指导作用。基于草药的性味归经,应用SVM★对传统中药组方进行了分类和识别研究,由此所发现的假阳性样本配方有提供给执业中医师做进一步药理分析和研究的价值。