单链和双链DNA结合蛋白特征提取与分类研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户:youaidu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物数据的不断增长,如何从大量的数据中挖掘出有价值的知识是一项极具挑战性且十分有趣的工作,这也促使了数学、计算机科学和生物学的相互交叉融合,从而诞生了一个新兴研究领域——生物信息学。随着蛋白质结构测定技术和高通量测序技术的不断发展,产生了大量的DNA结合蛋白结构数据和序列数据,为计算方法研究DNA结合蛋白的功能奠定了数据基础。DNA结合蛋白分为单链DNA结合蛋白(Single-stranded DNA-binding Proteins, SSBs)和双链DNA结合蛋白(Double-stranded DNA-binding Proteins, DSBs), SSBs主要参与了DNA复制、修复和重组等生物过程,DSBs参与了基因的表达与调控等一系列生命活动。虽然已有一些DSBs和SSBs的研究,但对DSBs和SSBs的结合特异性研究仍然未完全清楚。目前DSBs主要从结构、进化和生物特征角度研究,对SSBs主要通过分子生物学手段研究,仍然缺乏生物信息学手段对DSBs和SSBs的差异特征、结合特异性和结合机制研究,同时计算方法有助于实现快速高效的DNA结合蛋白的功能注释,以缓解蛋白质的数据量庞大与功能信息贫乏的矛盾,并且有助于我们进一步理解蛋白质-DNA相互作用机制。本论文通过构建数学模型,将计算几何和数据挖掘技术相融合展开DNA结合蛋白的功能和预测研究,共包含四个步骤:(一)、数据集的构建:首先进行理论论证,然后对收集的数据分析和整理,获得具有生物学意义和统计意义的可靠数据集;(二)、DNA结合蛋白的结构和序列数据的特征提取:如何从复杂的三维结构数据和序列数据中提取有效的特征参数成为关键环节,也就是如何将内在的空间位置信息和序列字符信息转换为数字特征信息;(三)、分类算法设计:对提取的特征数据,设计合理的分类算法,筛选有助于分类的特征以实现分类目标;(四)、分类性能的评价:对分类性能采用合理公正的评价体系,如测试方法、检验手段和评价指标选择等。全文的研究内容有以下三个方面。1、DSBs和SSBs三维结构全局特征研究从DSBs和SSBs的全局结构出发,通过对蛋白质的结构比对,提取出DNA结合蛋白的OBfold结构域特征,然后通过对通道表面三维结构的测量,获得了表面最大通道特征。经过对获得的特征比较和筛选,最终获得结构相似性分数、最大通道的长度和通道曲率等分类特征。实验对HOLO(绑定DNA)、APO(未绑定DNA)、混合数据和未知蛋白数据进行分类预测和独立验证,取得了较高的分类性能,实现了对未知DNA结合蛋白结构数据的自动化功能分类。2、DSBs和SSBs局部特征结合特异性研究本研究基于蛋白结构的接口局部特征,对DSBs和SSBs的结合特异性进行分析。通过设计空间结构特征提取算法,从蛋白-DNA接口区域提取了保守性残基理化特征、二级结构、接口的空间结构、接口残基空间形态和空间环境残基分布等特征,并且运用离散小波变换方法提取出更精细的特征细节,对蛋白-DNA的结合特异性进行研究。实验通过SVM分类算法和改进的加权随机森林算法对特征进行差异性检验,研究结果表明蛋白-DNA接口的静电荷、二级结构偏好性和接口空间形态等特征具有显著的偏向性,这些特征将有助于揭示蛋白-DNA的特异性结合机制,并能够为分子生物学家通过实验验证提供参考。3、DSBs和SSBs序列信息特征提取与分类研究。研究使用数据挖掘的算法来分析DSBs和SSBs中潜在的序列特征和属性,通过对序列特征的分类检验,获得了一些具有显著差异的特征。实验通过对序列数据的分析,提取出了四类特征:全序列组成、序列的二肽组成、氨基酸理化属性和位置特异性打分矩阵。为解决蛋白序列长度不同而造成的特征矩阵维度不一致问题,使用了改进的分隔氨基酸(Split amino acid, SAA)转换法统一特征矩阵。实验表明该模型能够对SSBs和DSBs序列数据分类,提出的特征也将有助于生物学家从序列层面对DSBs和SSBs的结合特异性有更深入的了解。综上所述,我们采用数据挖掘技术对DNA结合蛋白进行了较深入的研究,提出了一些解决相关问题的新方法。实验结果表明,我们提出的解决相关问题方法具有较好的效果,研究成果将有助于进一步推动DNA结合蛋白的功能和预测研究。
其他文献
目的:利用微阵列比较基因组杂交技术分析初诊多发性骨髓瘤(MM)患者的遗传学异常,探讨其在MM遗传学异常检测中的应用价值。方法:对20例初发MM患者,利用CytoScan 750K芯片对其
民用机场作为民航运输 系统的重要组成部分,是民航运 输市场和需求之间的衔接,是国 民经济体系的一个重要分支.机 场是空中门户和对外交流的重要 窗口,作为航空运输和城市的
一、“科研兴教”策略的提出鲅鱼圈区原是盖州市比较偏远落后的乡镇之一。 84年建区以来 ,随着开发区的发展我们虽然在教育教学管理等方面进行改革 ,但收效不大 ,始终处在兄
语文教学目标梯度的设置,要依据课程标准,要注意语言文字应用目标梯度的清晰性和人文熏陶目标梯度的模糊性.语文教学目标梯度的提升,要注意教学过程的非线性和教学策略的由浅
目的调查和了解武汉市居民区、特殊行业及农村自然村3种生境中鼠类种群动态及多样性特征,为病媒生物防制工作提供理论基础。方法 2006-2014年应用夹夜法定期对武汉市居民区、
论述了二维条码的编译码过程,MCODE条码是堆积式二维条形码的一个非常重要的分支。利用MCODE条码可以将文字信息以条形码的形式进行处理。为了降低二维条形码的识别误码率,提出
西藏林芝地区有着丰富的旅游资源,随着交通条件的改善,游客人数大大增多,对生态造成了负面影响.为此提出了培养具有生态学专业知识的导游员,调节游客流量,设立农家旅馆等措施
间伐作为一种林业生产活动,将会对区域内的植物群落和动物种群及行为产生影响.为了解间伐对鼠类介导的种子扩散的影响,2012年4月在王屋山区选择未间伐和间伐林地作为样地,标
<正> 动态投入产出优化模型是制定产业发展规划和投资规划的较为成熟的数学手段。但若计划期较长,该模型的变量数和约束数将急剧增加,导致维数灾。大道定理证明了长期的最优
20世纪90年代以来中国内地的超城市化进程,可以说相对具有最优化选择的多种可能性。但令人遗憾的是,到目前为止,中国的城市规划多是应变式的物质空间的蓝图规划.难以适应和制约超