蛋白质结构功能预测中若干关键算法的分析比较

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:cjcjmalei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的快速发展,蛋白质序列数量与已测定结构与功能的蛋白质数量的差距越来越大,迫切需要通过理论计算方法实现蛋白质结构功能的预测。目前,许多有效的方法被提出来研究蛋白质序列、结构和功能之间的关系,但不同方法在解决蛋白质结构功能研究中具有偏好性。因此,本文主要围绕蛋白质结构功能研究中方法展开,系统地比较分析了不同的特征提取方法、特征挑选方法和预测算法在蛋白质结构类、蛋白质紊乱、蛋白质分子伴侣、蛋白质溶解度和RNA结合蛋白质的预测中效率。主要研究内容如下:1、简要介绍了蛋白质研究的研究背景及意义、蛋白质的组成、结构和物理化学性质,并简述了常用的数据库及本文采用的数据集,为本文的研究提供了理论和数据基础。2、分析比较了蛋白质结构功能预测中氨基酸约化和特征提取方法。根据522种氨基酸性质将20种氨基酸约化成k类,提取蛋白质6类不同信息,结合支持向量机比较分析了氨基酸约化与信息提取方法在蛋白质结构功能预测中的效率。结果表明,在蛋白质结构类和蛋白质分子伴侣预测中,最好采用氨基酸的转向倾向类性质约化20种氨基酸,再提取蛋白质的顺序特征,而蛋白质溶解度的预测则偏向于蛋白质的RCTD特征提取方法。3、分析比较了蛋白质结构功能预测中特征挑选方法。本章选取了基于互信息的特征挑选方法、基于支持向量机的特征挑选方法等16种,结合K近邻预测算法比较分析了特征挑选方法在蛋白质结构功能预测中的效率。结果表明,基于非线性支持向量机的特征挑选方法在蛋白质结构类预测、蛋白质溶解度预测、蛋白质分子伴侣预测和蛋白质溶解度预测中表现最好,经过挑选后特征的准确率提升了13.16%-71%,尤其是蛋白质的k-mer特征和PSSM特征。4、分析比较了蛋白质结构功能预测中预测算法。本章选取了线性判别分析算法、主成分分析判别算法等7种预测算法,并比较分析了不同预测算法在蛋白质结构功能中效率。结果表明,在蛋白质结构类预测中,SVM预测算法表现最好,尤其与蛋白质PRseAAC特征结合,预测准确率达到99.15%;选择PCADA、CART、PLSDA、KNN或者SVM算法可以较准确地预测蛋白质的分子伴侣;在蛋白质紊乱预测中,KNN预测算法与蛋白质RCTD特征结合表现最好,准确率达到了94.75%;蛋白质溶解度预测应选取PSSM特征,结合PLSDA和PCADA预测算法;而在预测RNA结合的蛋白质时,采用GO特征和CART算法的组合或者GO特征和PLSDA算法的组合,都能获得较好的预测准确率。
其他文献
在种类繁多的的网络虚拟社群中,大学生网民无论从上网人数还是年龄、文化层次上,都是一个特殊群体,他们创新能力强,容易接受新生事物,渴望受到尊重和认同,与此同时还面临着学
Web2.0环境是一个虚拟的现实世界。在这个世界里,信息浩如烟海,泥沙俱下,也不再明了确定、真实可靠,“卧槽泥马”、“低智商社会”、“网络搜索综合症”等现象无不充分说明信
复杂多变的经济环境影响着企业的发展,汽摩零部件行业的现状及未来发展趋势如何,自身企业如何采取何种发展策略来应对世界经济全球化是企业决策者们最为关心问题,也一直是管
法律语言是具有特殊词汇的普通语言的功能变体,它形成和使用于一个国家的立法、司法以至执法的活动中。法律语言具有大量的专门术语,这些术语构成了法律语言区别于其它语言形
上海和香港,因其特殊的地缘文化和历史渊源历来被史学界和文化界津津乐道并赋予“双城”之名。在两座城市的交流史上,电影曾作为记录社会文化镜像的载体见证了他们各自的发展
我国绘画艺术博大深邃,源远流长,每个时代的画风和画家们的独特风格,有如万舸争流,奔腾不息。提到传统的中国绘画,人们会立刻想到传统四箴之一的毛笔,的确,用毛笔蘸墨作画是
近几年来,民国小学语文教材屡次出现热销甚至脱销的局面,而现行的小学语文教材却饱受弊病。在这样的情况下,很多学者都对民国小学语文教材和当今小学语文教材进行了对比研究,
本文是在“既要保障导弹武器的战斗完好性,又要考虑经济性”的军事需求的背景下,以导弹武器为研究对象,通过研究导弹贮存环境因素和人为因素,综合应用可靠性技术,对导弹费用
自1985年,我国发现首例HIV病毒感染者之后,我国艾滋病的流行已经过传入期、扩散期进入到了快速增长期。近几年,随着我国政府逐年加大对艾滋病防治工作的投入,防治工作初见成
广宗方言隶属于冀鲁官话石家庄邢台片,处于冀鲁官话与中原官话的过渡地带。广宗方言与普通话相比,在声韵调方面都有一些不同的特点,尤其是在声母方面。本文以实地方言调查为