基于蛋白质序列信息的特殊蛋白质识别方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:JK0803fengwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质识别研究是生物信息领域的一个重要研究分支,所要完成的任务是能够对未知的蛋白质所属种类进行正确的分类。我们完成的相关研究是对于DNA结合蛋白和蛋白质结晶两个方面的蛋白质识别研究。首先由于DNA结合蛋白在多种生物分子功能中起着重要的作用,而蛋白质结晶是通过X射线晶体学确定蛋白质结构的关键步骤,所以对于DNA结合蛋白和蛋白质结晶的识别与预测就显得尤为重要。传统的生物实验方法虽然较准确,但是却有耗时、费力且昂贵的缺点,且随着蛋白质序列数目爆发式的增长,生物实验方法已经不能满足人们的需求,于是迫切需要高精度、高速度与低消耗的计算方法来进行相关工作。由于大部分蛋白质并没有关于它的结构信息,所以基于蛋白质序列信息的蛋白质识别研究更适用于现在的具体情况。在本文中,我们详细介绍两个方面的研究工作:首先在DNA结合蛋白识别研究工作中,我们为蛋白质样本设计了三种特征提取算法,分别是归一化的Moreau-Broto自相关属性(NMBAC)、位置特异打分性矩阵-离散余弦变换(PSSM-DCT)和位置特异性打分矩阵-离散小波变换(PSSM-DWT)。对特征使用结合了相关性偏见减少策略的支持向量机递归特征消除算法(SVM-RFE+CBR)进行特征选择,在训练集PDB1075和PDB594上使用留一法进行评估,在测试集PDB186上使用独立测试进行评估,使用的模型算法是支持向量机(SVM)。接下来在蛋白质结晶识别研究工作中,我们采用了六种特征提取算法,分别是均分块-位置特异性打分矩阵(AVBlock-PSSM)、均分块-二级结构(AVBlock-SS)、全局编码(GE)、伪位置特异性打分矩阵(PsePSSM)、Protscale和离散小波变换-位置特异性打分矩阵(DWT-PSSM)。提取的特征经过线性结合后建立SVM模型进行预测。我们总共使用了两组数据集,训练集是TRAIN3587和TRAIN1500且它们通过五折交叉验证的方法获得预测结果,它们各自对应的测试集是TEST3585和TEST500且用于独立测试中。最终,在DNA结合蛋白的识别研究中,我们的方法在数据集PDB1075和PDB594上的留一法实验结果都达到了最高的准确度,在独立测试中我们方法的准确度也达到了76.3%,这个结果是优于绝大多数现存方法准确度的。在蛋白质结晶识别研究中,我们的方法在第一组数据集TRAIN3587和TEST3585上的五折交叉验证以及独立测试取得了最好的预测结果,而且我们的方法在第二组数据集的训练集TRAIN1500上也在五折交叉验证中取得了最好的预测结果。在测试集TEST500上的独立测试虽然不能够达到最优但已经超越了绝大多数现存方法的预测效果。这两个研究工作都表明了我们在DNA结合蛋白和蛋白质结晶的识别研究工作中提出的方法都具有明显的优势且能很好地用于相关蛋白质的识别工作中。
其他文献
在本文中,我们将研究在一个椭圆方程中识别辐射系数的数学理论分析和数值计算方法。我们应用基洪诺夫正则化方法将该反问题转化成为一个连续的优化问题,并且证明其极小值的存
植物养分含量的变化是影响植物生长状况的重要指标之一,研究植物叶片的养分含量变化及相互之间的关系,具有制定合理有效的施肥对策、提高造林质量、经济效益和生态效益等重要
本论文首先简要介绍了固态材料表面润湿和介电润湿特性方面的相关基本概念及理论模型,综述了介电润湿的发展史、研究现状以及目前面临的主要挑战和待改善的问题。介电润湿具
石墨烯基气凝胶复合材料因具有优异和独特的理化性质,在能源、环境领域,特别是催化、吸附、电极、电容器和传感器等研究方面有着巨大的应用前景。目前,传统的水热法、模板法
安溪是高山区的一个山区,距离高邦主要经济中心有40公里,与中华人民共和国毗邻,是促进与外界特别是与中国进行经济交流的重要区域。近年来,安溪在社会经济发展中取得了巨大成
传统固定翼飞行器为满足不同条件飞行的需求采用了包容性的设计方案,使得飞行器在不同飞行环境下的性能均不能处于最优状态。为满足多任务飞行的需求,近年来国内外基于仿生学
富马酸是三羧酸循环(TCA)的中间产物,在许多领域具有广泛的应用。目前,富马酸主要以石油基产品为原料化学合成。然而,由于石油资源的不可再生性及化学合成法对环境的污染问题,急需开发一种富马酸生产的替代方法。生物发酵法具有成本低、易操作、环境友好等特点,日益受到人们的关注。近年来,随着基因工程、代谢工程技术的发展,研究者逐渐开始对各类天然产物的发酵及代谢过程进行人工设计和改造,以达到进一步提高发酵产率
碳纤维/氰酸脂复合材料作为一种新兴的高性能结构材料在航天器上受到广泛应用,但是航天器在太空长期服役条件下会受到空间环境中的粒子辐照损伤,材料内部会发生电离、位移损
金属纳米簇荧光探针具有合成简便、独特的光学性质以及良好的生物相容性等优点,在生化分析及环境分析等领域中应用广泛。相比于金银等贵金属纳米簇,铜纳米簇(Cu NCs)更廉价,但
目前富马酸的生产方法主要依靠以石油为底物的化学法,生物法发酵生产富马酸可以克服原料不可再生的不足,更加的绿色环保。通过培养基浓度与粘度的不同,可使种子培养成大小均匀的小球状菌丝体,通过200rmp、30℃的发酵培养132h,最高富马酸浓度可达33.8 g/L。通过使用少根根霉网布固定化和丝瓜瓤固定化的方式进行发酵,相比游离化的小球状发酵,发酵周期缩短36.36%,产量也有提高;本实验通过以葡萄糖为