基于多核SVM的蛋白质结构类预测

来源 :陕西科技大学 | 被引量 : 0次 | 上传用户:dave463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的空间结构决定了其生物学功能,识别和预测蛋白质结构类有助于进一步了解更高层次的蛋白质结构特征,为蛋白质的功能研究及其相关药物设计提供了重要线索。常规的生物实验方法可以识别蛋白质结构类,但成本较高无法满足大规模蛋白质结构类分析的需求。利用蛋白质序列信息矢量表示和机器学习算法来预测蛋白质结构类,可以解决大规模蛋白质结构分析任务。为了提高蛋白质结构类预测的准确率,本文主要对蛋白质序列特征提取和多核学习等内容展开研究。使用多种特征提取方式对蛋白质氨基酸序列进行特征融合,然后采用多核支持向量机方法来识别和预测蛋白质结构类别。主要工作内容如下:(1)构建了一个多信息融合的蛋白质序列组合特征集。针对蛋白质序列特征表示,分析了多类特征提取方法,包括氨基酸组分、多肽组分、伪氨基酸组分和平均化学位移,以及低方差过滤、主成分分析等多类特征选择方法。首先采用 PseAAC(Pseudo Amino Acid Composition)、DPC(Dipeptide Composition)、OTC(Optimal Tripeptide Composition)、和ACS(Average Chemical Shift)四种方法对氨基酸序列信息进行矢量表示并串联融合;然后采用低方差过滤与主成分分析方法对包含大量信息冗余的高维矢量特征进行降维;最后研究对比多种组合特征集在基准SVM(Support Vector Machine)模型上的表现,以及同一组合特征集在不同分类模型上的表现。交叉验证实验结果表明,输入向量为降维后的组合特征集PseAAC-DPC-OTC时模型准确率最高,使用基准SVM算法与网格搜索对降维后的数据进行分类预测更有优势,基于特征融合的蛋白质结构类预测方法在基准数据集上得到了有效的预测结果。(2)构建了一个组合特征集与加权多核SVM相结合的蛋白质结构类预测模型。首先采用降维后的伪氨基酸、三肽组成和二肽组成特征对蛋白质序列进行综合矢量表示;然后确定备选的基础核函数类别数量及其内部参数,选取多种不同参数下的核函数组合进行对比研究,采用五折交叉方法进行检验,比较不同核参数下分类模型的预测准确率;最后,通过综合对比模型查准率、查全率、F1与AUC值,确定最佳核参数与最适用于多核SVM模型的组合特征集。实验结果表明,PseAAC-DPC特征集结合多核SVM模型能够有效提高蛋白质结构类的预测准确性。提出的基于多核SVM与特征融合的分类模型相比其他SVM扩展模型在蛋白质结构类预测时具有明显优势,总体准确率达到了 89.13%。
其他文献
农业是国民经济的基础。由于农业生产周期长、季节性强、受自然因素影响大,导致农业企业经营不稳定、利润水平低,加上市场环境日益激烈,企业的生存发展存在较大风险,如果没有
使用向量场奇异值分解(SVD)方法分析了热带太平洋区域风应力场与海表温度异常的相互联系。结果表明,它们存在着密切的联系,其时间系数正、负峰值均与ElNino、LaNina事件有明显的对应关系
编者按$$骨质疏松症是威胁老年人身体健康很常见的一种疾病,同时也可见于各年龄段人群。骨质疏松症最多见于绝经后妇女,但实际上,由于酗酒、吸烟等不良生活方式的影响,男性骨质疏
报纸
党风廉政建设主体责任和监督责任是党章赋予各级党委(党组)和纪委的重要职责,是中央在更高层次上落实党风廉政建设责任制提出的理论创新,是深入推进党风廉政建设和反腐败斗争
随着可降解塑料产业的快速发展,生物可降解材料引起了人们广泛的关注。聚乳酸(PLLA)因其良好的生物可降解性、生物相容性、可再生性以及高模量、高强度无疑是最具发展潜力的生物基聚合物之一。但PLLA自身的易燃性和脆性限制了其在诸多领域的应用,开发具有韧性高和阻燃性能优异的PLLA复合材料对拓宽PLLA的应用具有重要意义。本论文采用反应共混技术,基于聚酯多元醇和PLLA主链端羟基的反应性,原位反应生成弹
随着我国电子商务迅猛发展,目前我国急需电子商务专业人才,特别是具有电子商务专业技能的人才。如何开展好高职院校的电子商务教育,是目前职业中电子商务专业的教师思考的问
近今年国内企业尤其是高新技术企业对自主研发的重视程度逐渐提升到战略发展研究的高度上,伴随而来的是研发部门和研发人员逐渐成为企业长远发展中不可或缺的核心力量。但这
黄褐斑是一种以面部发生黄褐斑片为特征的皮肤病。本病好发于青壮年,女性多于男性,呈淡褐色或淡黑色斑,形状不规则,对称分布于额、眉、颊、鼻周等颜面皮肤,表面光滑,一般无自
本文阐述了在不同交际场合如何辨别并正确运用英语不同文体的问题,特别重点分析了正式语体和非正式语体在语音、句法结构和选词诸方面的差异。
为保障导游人员的权益,在经济上应建立合理透明的导游薪酬制度,认定导游人员的等级,在法律上要完善导游继续教育的培训制度,完善导游劳动权的保护制度。