论文部分内容阅读
随着基因组计划的启动和发展,蛋白质序列每年呈指数趋势爆炸式增长,然而其中已知结构和功能的蛋白质数量却增长缓慢。面对日益增多的蛋白质序列,如何从中挖掘有用的信息进而有效地预测蛋白质的结构和功能成为当前一个亟待解决的难题。DNA和RNA结合蛋白是两种特殊的蛋白质,它们在多种有关基因的生命活动中扮演重要的角色,与很多疾病相关。虽然基于实验的方法能够比较准确地识别这两种蛋白,但这些方法的成本都非常高,而且对实验环境和设备有严格的要求。为了设计更加高效快捷的DNA和RNA结合蛋白识别方法,本课题以蛋白质序列信息为基础,对DNA和RNA结合蛋白识别问题进行了研究。针对现有基于序列的DNA结合蛋白识别方法性能有限的问题,本文设计了一个基于加权投票的集成学习策略,结合现有的三种蛋白质表示方法(k-mer,PDT和PDT-Profile)及SVM算法构建了一个DNA结合蛋白识别模型i DNA-Prot-Vote。在国际上两个广泛使用的数据集上对其进行了测试,结果表明本文所提集成方法能够在基分类器的基础上提升DNA结合蛋白识别准确率,且集成模型i DNA-Prot-Vote的识别准确率高于大多数现存的方法。针对如何有效地表示蛋白质序列的问题,本文设计了三种基于PSFM谱的蛋白质特征提取方法,包括PSFM-DBT,PSFM-TT和PSFM-RPT。在基准数据集和独立测试集上的测试结果表明本文所提的三种方法在DNA结合蛋白识别问题上优于大多数现存方法,且PSFM-DBT方法取得了最高的预测准确率。为了验证所提方法的有效性,本文在分子生物学层面对PSFM-DBT提取到的特征进行了分析,结果表明该方法确实能够有效抓取蛋白质特征。基于PSFM-DBT方法本文构建了一个DNA结合蛋白预测模型,并开发了相应的在线预测系统。针对DNA和RNA结合蛋白识别领域没有能够同时识别DNA结合蛋白、RNA结合蛋白以及非核酸结合蛋白的方法,本文基于深度学习技术提出了第一个能够识别上述三种蛋白质的方法Deep DRBP。Deep DRBP分为两层,每层是一个分类模型,由一种深度神经网络结合一种蛋白质进化信息谱构成。第一层用来区分核酸结合蛋白(DNA/RNA-binding proteins)和非核酸结合蛋白,第二层用来进一步确定在第一层中被预测为核酸结合蛋白的查询蛋白是DNA结合蛋白还是RNA结合蛋白。在基准数据集和Swiss-Prot新增蛋白质上的测试结果表明本文所提方法是一种有效的识别方法。此外,本文还提供了相应的在线预测系统。