蛋白质—核酸相互作用位点预测新方法研究

被引量 : 0次 | 上传用户:dillon100200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质-核酸相互作用的发生,对于细胞中的很多生命现象都有重要的维持和促进作用。因此,蛋白质-核酸相互作用机理的研究,对于我们了解诸如细胞遗传信息的传递途径、细胞的新陈代谢,细胞分化、增值和衰老、细胞的信号转导方式等重要的细胞内活动,都有重要的理论意义。在蛋白质-核酸相互作用中,蛋白质中的核酸结合位点对于分子间的相互作用起到联系和桥梁的作用。因此对于核酸结合位点的识别,使我们能够进一步从残基和原子水平上对蛋白质-核酸相互作用的方式和细节进行深入了解。在蛋白质中核酸位点的识别中,传统的实验手段在具有很高的精确度的同时,也存在着实验技术复杂、周期长、成本较高等缺点。所以需要发展出其他的方法来确定蛋白质中的核酸结合位点。基于机器学习的计算方法就是在这样的背景下提出来的。通过使用从蛋白质序列和结构中提取得到的特征信息,可以对蛋白质中的残基进行编码,得到表征蛋白质序列残基的特征向量。在这些特征向量的基础上,可以使用机器学习算法建立蛋白质中的核酸结合位点预测模型,从而预测蛋白质序列中的核酸结合位点。本论文的工作具体包括以下几个方面:本论文的第一部分首先论述了蛋白质-核酸的相互作用方式和复合物在细胞中具有的生物功能。接下来总结了已经发展出来的RNA结合位点预测模型和DNA结合位点预测模型。在这些模型的构建中,常用的机器学习算法包括支持向量机、人工神经网络、贝叶斯方法和随机森林等。在这些方法中使用了包括蛋白质序列信息和蛋白质结构信息作为输入特征训练模型,取得不错的成果。最后,论述了现存方法中存在的问题,包括(1)模型泛化能力不高;(2)数据集中正负样本数据不平衡的现象;(3)模型的预测能力差的问题。针对上述问题,我们提出了一系列的有针对性的解决方法,结果表明我们提出的方法具有较好的问题解决能力。论文接下来的第二、三部分对于上述解决方法进行了具体的阐述。本论文的第二部分提出了基于随机森林算法的RNA位点识别模型。在这个模型中,使用了两种三种蛋白质序列特征和两种蛋白质结构特征作为特征向量。然后使用滑动窗口方法和光滑窗口方法对特征向量进行编码,使特征向量的维数和表征RNA结合位点的信息得到扩充。为了解决数据不平衡现象和模型预测准确率不高的问题,我们使用了合成正样本方法和一致性建模方法来构建RNA结合位点的分类模型。通过对测试集的预测结果可以看到,我们提出的RNA位点的预测模型具有较好的外部预测能力,对测试集序列中的RNA结合位点的预测准确率比较高。接下来我们使用两种方法对特征向量中的特征进行了打分和排序,对其中的重要特征的种类和数量进行了分析。得到蛋白质序列的位点特异性得分矩阵特征在RNA位点的识别中占有重要的作用。最后,我们和其他的RNA位点预测方法在测试集上进行了对比,结果也说明对于给定的测试集,我们提出的基于随机森林方法的预测准确率比较高。本论文的第三部分中,构建了基于随机森林算法的DNA位点预测模型。在该方法中,使用了五种蛋白质序列和结构信息作为输入特征。这些特征包括,蛋白质序列的组成特征,残基的物理化学性质,预测二级结构特征,可及化表面特征和B因子特征,使用这些特征来表征蛋白质序列中的残基。在其他模型构建方法的基础上,这些方法包括对特征向量使用窗口方法,在解决数据不平衡时,使用SMOTE方法和一致性建模方法,我们构建了对于测试集中DNA结合位点的预测准确度比较高的模型。最后,对特征向量中的重要特征,我们使用计算信息增益的方法,对特征进行排序,提取150个重要性特征。在这些重要特征的基础上,重新建立模型并预测测试集,也得到了比较好的预测结果。说明我们选取的特征具有比较好的代表性,能够有效地识别蛋白质序列中的DNA结合位点。在论文的最后一部分,对于提出的蛋白质中的核酸结合位点的预测模型进行了总结和展望。同时,也对基于机器学习方法的蛋白质序列的核酸结合位点的预测方法的发展方向进行了总结,指出更多的核酸结合蛋白质结构和序列的获得,是得到有效特征和提高模型准确率的关键途径。
其他文献
分析了行业高职院校会计特色专业建设应考虑的因素,得出会计特色专业建设必须与办学历史、社会经济发展和行业背景紧密联系的结论;从专业建设理念、人才培养目标、课程体系建
随着我国经济飞速发展,城市规模不断扩大,公交线路日益增多,路网模型愈来愈复杂,仅靠人脑记忆或者在地图查找出行信息变得越来越不方便,利用信息化手段,开发基于互联网的公交
孔雀石绿残留在水产品中和环境中存在时间长,具有毒性高,残留高及潜在的致畸、致癌、致突变等危险性,美国、欧盟对水产品中孔雀石绿的使用都有明确的规定,我国已将孔雀石绿列
<正>"先学后教,高效课堂"的小学数学教学模式要求学生能独立运用课本进行文本阅读,基本理解并掌握文本的主要内容。学生进行文本阅读的前提是必须有一定的自主阅读、自主学习
以纸坊沟流域多年土地利用监测数据为基础 ,对其结果进行分析和讨论。结果表明 ,到 1 999年底 ,农业、林业、牧业用地面积比例分别为 1 6.9%、34.0 %、36.8%。人均基本农田由
在当今社会,会计信息背后隐藏着各种经济利益关系。国内国外的会计信息造假案不断出现,造假手段愈加隐蔽,造假程度不断升级。据中注协2014年5月30日发布我国百家会计师事务所
简要回顾了国内外有关结构柱抗震研究中所采用的地震荷载模拟加载方法。以加载方法的原理为依据可以将单体结构柱单元的地震模拟试验装置可以分成竖向悬臂梁式,简支梁,以及反
中国经济发展迅速,经济发展模式也日趋多样化,但经过实地考察,发现仍有许多地方经济发展欠佳,有的虽然经济有所发展,但却以牺牲生态环境作为代价。县域生态经济发展模式是一
目的观察并探讨同步放化疗治疗Ⅲ期非小细胞肺癌的近期疗效。方法将入选的91例Ⅲ期非小细胞肺癌患者随机分成两组,其中同步放化疗治疗组46例,采用IP方案化疗3个周期,21 d为1
通过对惯性场和电磁场分量的计算,指出惯性力和电磁力有一致的表示,并计算出惯性力和电磁力的相应结果,从而统一了惯性力和电磁力.