基于分层随机语言模型的激酶功能位点预测和分类

来源 :北京大学 | 被引量 : 0次 | 上传用户:a7343022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
激酶功能位点的预测在生物学上有着非常重要的意义。本文提出了一种基于分层随机语言模型的识别方法,通过对一维残基序列的分析来实现激酶功能位点的预测和分类。首先我们统计一维残基序列中n-tuple的分布情况,构造可能表示功能位点的残基关键词(keywords)。在此基础上,根据不同功能的激酶家族,我们利用各家族的关键词建立相应的随机语法(sentencesandgrammars),以此实现不同功能激酶家族的分类。与国际上流行的motif识别方法不同,随机语法模型基于生物进化的规律,不仅允许motif中残基的插入和删除,还考虑到motif中残基间远距离位置的相关性,因此我们的预测结果不仅具有更清晰的生物学意义,而且更方便生物学家利用我们的结果,特别是验证我们所预测的可能的功能位点。 相对于PFAM以domains为基础识别蛋白质的方法,我们的语法模型(sentencesandgrammars)一般只有30-40个残基,因而能更加有效的识别可能存在的磷酸化位点。在65个有PDB结果的激酶家族中,78.4﹪的关键词可以在实验结果中得到印证;而在45个有PROSITE结果的家族中,75.6﹪的关键词可以与PROSITE中已有的patterns重叠。 利用随机语法,我们能有效的对94个家族中的66个进行功能分类,使得每个家族识别的显著性和特异性都高于80﹪,优于PROSITE的识别结果。在另外的20多个家族中,利用我们的模型可以发现其中可能存在子类,其中部分分类结果可以在PDB和进化树分析得到验证。这对于在同功能激酶家族中寻找不同源的子类具有很好的指导意义。
其他文献
本文从bent函数的基本性质出发,介绍了完美非线性函数提出的背景和具体定义,指出了其与bent函数的紧密联系。考察了相对差集的性质,揭示了分裂型半正则相对差集与完美非线性函数
Vapnik统计学习理论着重研究小样本的统计规律及-9习方法,它能避免传统的统计模式识别方法只有在样本数趋于无穷大时性能才有理论保证的缺点。支撑向量机(SVM)是在统计学习理
在英语听力教学中,要指导学生掌握良好的英语听力方法和必要的听力技巧,有助于学生更容易听懂听力语篇,提高学生答题的准确率。因此,在听力教学中教师要注意对学生进行听力技
新疆作为中国最具代表性的多文化区域,提倡在普通高校教育中积极添加多元文化教育因素.普通高校的素质文化教育通过“双重乐感”的教学方法培养学生客观的、科学的认识和学习
本文对安全多方计算及其应用进行了研究。首先介绍了安全多方计算的背景和意义;然后从简单的两方情形着手给出了在两个不同模型-半诚实模型和恶意模型下的安全计算的定义,并分
本文对椭圆曲线密码进行了研究。文章包含两部分: 第一部分完善了赵、徐[46]提出的基于p进数域的椭圆曲线密码框架.通过使用新的提升算法,去除了曲线选择时的某些额外限制条
奇异值分解是计量心理学,统计学,信号处理,控制论和系统论中广泛使用的数学工具,无论是进行矩阵分析还是开展数值计算,奇异值分解都起着非常重要的作用。本文简短回顾了奇异值分解
学位
本文研究了带协调运输的单机排序问题,在这个问题中,每个工件需要先在同一台机器上无中断的连续加工,加工完成后由运输车辆派送给同一个客户,且每个工件在运输过程中需要不同的存储空间,该问题的目标是最小化这个过程中所需要的总完成时间.针对这个问题我们讨论了两种情况,一种情况是,工件在机器上加工完成后由3台相同车辆分批派送给一个客户,我们给出了最坏情况界为2的近似算法,并且证明该界是紧的,该算法的时间复杂性
学位
在古典风险模型的基础上,进一步考虑兔赔额和赔偿限额,从而建立了几类理赔额受限风险模型。首先,在理赔额受限的情况下,考虑古典风险模型,得到了理赔额受限风险模型的破产概率。并
科技实力代表了一个国家或地区的综合实力,对科技实力的评估研究体系也日趋完善,但是科技实力代表的是一个由诸多因素组成的复杂系统,对科技实力的评价需要因地制宜,因时而变。本文通过对福建省的科技实力进行科学客观的分析研究,研究福建省科技实力的发展趋势以及福建省各地市的发展情况,明确福建省的科技发展的重点与趋势,早日实现福建省“十三五”科技发展规划。本文利用多维时间序列分析相关方法深入探讨了2002-20
学位