基于序列编码的蛋白质亚细胞定位及相互作用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:chenman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学数据的爆炸性增长和人类基因组计划的顺利实施极大地促进了生命科学的发展。作为生命活动的主要承担者,蛋白质与各种生命活动息息相关,因为任何生命活动都与蛋白质之间的相互作用密不可分,而蛋白质之间发生的相互作用又与蛋白质中的亚细胞器有着千丝万缕的联系,因此对于蛋白质相关领域的研究具有十分重大的意义,另外,蛋白质亚细胞定位预测和蛋白质之间相互作用研究又有助于研究人员进一步理解生命活动的作用机理。一般来说,蛋白质相关功能的研究主要涉及两个步骤:一个是蛋白质序列的特征提取;另一个是分类算法的选择或分类模型的构建。因此,本文将主要精力集中于蛋白质序列编码算法的研究中,并将其应用于蛋白质亚细胞定位和相互作用的预测中。本文的主要创新性工作如下:(1)本文在伪氨基酸组成序列编码的基础上提出了一种新的蛋白质序列编码方法。该方法不但保留了氨基酸组成的信息,还引入了蛋白质序列中氨基酸残基的位置信息,同时还考虑到了氨基酸残基的相关理化性质以及氨基酸序列中残基间的相关性信息。通过该方法可以顺利地提取出氨基酸序列中与亚细胞定位密切相关的特征信息,并将其转化相应的数值特征向量,然后本文选取两个典型的数据集作为训练集和测试集,并选择K近邻分类算法作为分类器进行样本的分类训练和测试。在实验的过程中,与其他已有的方法进行对比和分析,结果显示本文所提方法具有较好的预测性能。(2)本文全面考虑了影响蛋白质相互作用的诸多因素,并在综合考虑这些因素的基础上提出了一种基于融合特征的蛋白质序列编码方法。该方法中包含了氨基酸组成的特征信息,并且为了将蛋白质序列上氨基酸残基间的顺序信息包含其中,引入了三联体编码方法,但是三联体方法的引入也带来了特征向量的高维度。为了将特征向量降维,本文根据氨基酸残基的理化性质将20种氨基酸分为七类,考虑到氨基酸序列上与蛋白质相互作用密切相关的氨基酸残基间的相关性特征,又引入了一种新的自相关特征编码方法。最后为了评估该序列编码方法的预测性能,本文选取了三类不同的数据集,并运用支持向量机作为分类算法来进行样本的训练和预测。实验结果显示,本文所提算法具有较好的预测性能,并且与其他已有的算法相比,本文算法仍具有一定的优势。
其他文献
孩子是祖国的花朵,是祖国未来的栋梁,一切从娃娃抓起。但是在我国,儿童面临的心理压力越来越大,心理健康问题日益突出,我们应分析儿童心理的特点,因材施教,采取正确的教育策略,使儿童
为解决传统的酱卤肉制品产品风味不稳定,不易包装和贮藏的缺点,本试验改进传统酱卤肉制品加工工艺,利用低温腌制、蒸烤工艺制成半干卤肉休闲食品。利用猪肉为研究材料,通过相
试论稳健原则及其应用晋自力稳健原则亦称谨慎原则,是西方国家普遍奉行的一条重要的会计惯例。为适应我国社会主义市场经济发展的需要,加快与国际惯例接轨的进程而颁布的《企业
为了提高铁碳微电解工艺处理实际印染废水的效率,采用响应面法进行工艺条件优化。以COD去除率为响应值,初始pH、铁投加量、铁碳质量比及反应时间为实验因素,构建响应面模型,
<正>近两年来,中国标准化杂志社的国际合作不断取得突破性进展,相继与国际标准化组织(ISO)、美国材料与试验协会(ASTM)、美国消费品安全委员会(CPSC)等合作之后,近日又与全球
期刊
以日本千叶工业大学为例,介绍了国外高校计算机学院实验室利用虚拟计算机系统构成的实验环境。分别说明了该实验室建设的初衷、优点,以及该实验环境对教学的促进作用;然后,以
传统ANP-BOCR方法(即从收益(B)、机会(O)、成本(C)和风险(R)视角分别构造ANP(网络分析法)子网络,再将BOCR子网络下的方案评价值进行综合集成)被认为是一种处理复杂系统问题的有效方法。然
改革开放以来,中国的对外贸易得到前所未有的发展,中国从一个贸易小国一跃成为世界主要贸易大国,在此过程中,中国贸易条件的动态变化逐渐得到学术界和政策制定部门的关注.
花卉不但可供人观赏而且多种花卉又可药用,其价值甚至超过观赏。自古以来,人们就将一些庭院栽培的花卉和山野生长的花卉,列为防治疾病、保健强身、延年益寿的常 Flowers not
阐明历史学科教学要充分发掘资源,运用乡土历史进行教学,培养学生的爱国主义精神,教育学生热爱家乡、热爱祖国和继承发扬中华民族的优秀文化传统,将德育渗透到教学过程当中,