论文部分内容阅读
在模体发现研究中,目前研究主要集中在两个领域中:一是基于蛋白质不同家族的模体发现、一是基于蛋白质同一家族不同子族的模体发现,而后者研究又是模体发现的难点。前者由于不同家族有着相同的功能,故模体之间有着十分明显的差异,而后者由于同属于同一家族,模体之间有着极大的相似性和极微的差异,并且这些差异又蕴藏在蛋白质氨基酸序列的长链之中,因此问题的解决面临着巨大的数据处理任务。如何能够设计更优化的算法解决大量的计算量,同时较准确地找到家族模体和基于模体信息对序列进行家族分类是本论文着重要解决的问题。本论文基于酶蛋白家族中连接酶的子类进行研究,因为酶在蛋白质家族起着十分重要的作用,负责给生物体提供能量和维持生物体所需要的物质,相当于生物体的化工厂,同时连接酶的数据库相对全面。首先从模体结构特征入手,结合生物学理论,运用统计学等方法,抽取各子类的特征集合,然后对特征集合采用记忆链接方式,发现反映子类特征的模体,并据此对连接酶家族内蛋白质序列进行分类预测;研究模体特征,设计有效的模体发现算法发现序列家族内的软模体;并在现有的免疫算法和模糊分类器的基础之上,建立了基于免疫算法的模糊分类器,从而提高基于序列模体分类器的准确度和效率。具体而言,本论文主要研究工作有:从生物学理论出发分析蛋白质家族氨基酸序列模体特征,设计模体编码和统计模型从连接酶各子类中提取能够表征各类的模体特征初始集合;结合模体特征,设计基于统计记忆库的特征链接算法,将初始特征集中的短模体进行连接从而得到能够表征各类模体集;建立基于模体集的分类器对家族序列进行分类,从而验证所得模体的性能。从模体结构的角度出发,研究软模体的结构特征,建立适合智能算法的模体发现编码策略和结构函数。在此基础上建立适应度函数,从而引入适合模体发现的遗传算法,挖掘结构更加优化的序列模体,并在AMP-binding domain signature的序列集,搜寻出该序列家族的模体。研究模糊分类器在模体发现上的运用特点(包含氨基酸种类模糊化、模体序列长度模糊化、氨基酸间隔模糊化),在综合免疫算法和模糊分类器的基础上,建立免疫模糊分类器。在基于AMP-binding domain signature的数据库构造检验数据集,对分类器的分类效果进行验证,从而证明了确定算法的有效性。本论文在运用统计学和智能算法实现了对连接酶子类的模体查找及分类,建立了相应的模体库,提出的相关智能算法具有很大的可扩展性,无论从生物学角度和计算智能角度都有比较重要的意义。