蛋白质序列的并行分类方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:lv_yj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文的主要研究对象是生物信息学中的蛋白质序列分类问题。利用计算的方法,从蛋白质的一级序列决定了其三维结构的角度出发,针对氨基酸序列建立数学模型进行蛋白质结构分类,并引入并行计算的思想提高分类器性能。用并行计算方法进行蛋白质序列的结构分类减少了昂贵且非常耗时的实验次数,提高了分类效率,促进了对复杂的生物规律的分析和对有用生物信息的提取。本文在当前准确性最高的基于判别模型的蛋白质远同源检测算法的基础上,结合基于统计剖面的生成模型方法,设计了基于统计剖面的核函数。并通过半监督学习的方法提高了远同源检测算法的准确性。针对蛋白质序列分类中正样本数远小于负样本数,造成支持向量机训练不平衡的问题,本文提出了优化支持向量机算法,对正类样本集和负类样本集应用不同的惩罚参数,平衡了正负样本。对给定测试集进行的预测实验结果表明本文的算法取得了优于其它远同源检测算法的预测效果。针对标准支持向量机算法只能分别对每一个蛋白质结构类进行二元判别的问题,本文引入了多类支持向量机对标准二元SVM分类器的判别结果进行综合,输出唯一的蛋白质结构类预测结果,提高了基于支持向量机的蛋白质序列分类的可用性。多类支持向量机需要复杂的计算完成支持向量机训练,可以说是用大量计算为代价提升算法的准确性。为降低算法的时间复杂性,本文引入并行计算思想,设计了基于主从模型的蛋白质并行多类分类算法,在基于共享内存和基于消息传递的并行模式下都取得了很好的加速效果。所有基于支持向量机的算法都需要一定数量的样本进行训练建模,由于样本数不足造成支持向量机算法仅能覆盖部分蛋白质结构类。本文通过将高准确率的支持向量机算法与全覆盖的双序列比对算法结合,构成组合分类器进行蛋白质序列分类。在基准数据集上的实验表明,组合分类器不仅实现了对数据集的全覆盖而且综合性能也优于单独的任何一种预测算法。为提高组合分类效率,本文设计了基于两级任务池模型的蛋白质并行多类分类算法,有效降低了通讯等待时间,提升了并行的性能。
其他文献
大师思想,实践源泉。从创刊伊始,《当代电力文化》杂志每期深入介绍一位国际著名管理大师的思想和实践,迄今已有40余位。读懂大师,读懂管理,读懂文化。本期杂志《经典》栏目
目的分析小儿病毒性心肌炎的护理体会。方法选取我院2010年4月~2014年4月收治的病毒性心肌炎患儿100例为研究对象,随机分为两组,对照组给予常规护理,观察组给予综合性护理,比
目的观察白血病患儿血培养病原菌分布及耐药情况,研究其危险因素。方法对某医院2013年9月—2016年11月小儿血液专科病房内110例患儿血培养分离的131株病原菌种类、耐药类型,
一、研究背景和目的孤独症谱系障碍(ASD)是一类以交互性社交交流和社交互动的持续损害以及受限的、重复的行为、兴趣或活动模式为基本特征的神经发育障碍性疾病。这些症状从
将离子推力器电源处理单元(PPU)的屏栅电源拓扑作为研究对象,从电推进发展现状及趋势出发,介绍了国内外的研究进展和应用情况。主要就目前屏栅电源所用到的双全桥并联拓扑、
学科的性质与任务是任何学科发展首先面临的,也是经常关注的问题。区域地理是地理学中最古老最核心的部分,学科的发展必须继承地域性、综合性与地域综合思想的地理学传统。区
背景第四届中国绿化博览会将于2020年8月至10月在贵州省黔南州都匀市举办,绿博园位于都匀老城区与经济开发区之间,总面积1959公顷,核心区面积396公顷。本届绿博会以“绿圆中
本研究旨在分析《红楼梦》两个英译本中名词化的使用特点及其与隐/显化之间的关系。研究将英语名词化界定为由限定性动词经过转换生成,并将名词化结构界定为由限定性小句结构
自改革开放以来,各行各业都得到迅猛的发展,尤其是建筑行业,随着中国融入全球大经济圈,建筑行业正面临着机遇与挑战。近几年来,建筑行业正经历着全球市场的考验,相互之间的竞
在英美法系的衡平法及信托概念的基础上发展起来的信托收据制度,源于信用证贸易项下进一步融资的需要,用以解决银行释放单据与保留相关权利的矛盾。信托收据规定进口商作为银