蛋白质序列编码与功能预测

来源 :湖南大学 | 被引量 : 0次 | 上传用户:highlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从人类基因计划实施以来,各种生物序列数据信息呈爆炸式增长,生命科学的研究已进入了后基因时代。核酸、蛋白质序列信息不断地增长,大量参与生命活动的蛋白质的功能却知之很少。因而对蛋白质的功能预测成为当今信息生物信息学的主要任务之一。由于海量的序列,传统实验的方法已远远不能赶上序列分析的步伐。因而怎么对这些蛋白质的氨基酸序列进行挑选,分析,处理,标注成为当今又一个热点及难点。本论文研究的主要内容就是蛋白质功能类预测方面的问题。主要的工作内容如下:提出了蛋白质功能类预测方法的一种数据集选择方法。蛋白质功能类预测方法中一个必要步骤是数据训练集的选择。一般的方法是选取尽可能大的样本训练集。本论文做出了一些探索,首先把所得到的样本集序列按照蛋白质序列长度从小到大进行重新进行排列,并按新序列顺序从小到大取相同数目一系列的样本集,在各个样本集中做功能预测,得到序列长度与序列特征关系在蛋白质功能预测的影响关系。提出了基于测试样本序列长度的选择最邻近样本序列训练集,这样取得的训练样本集较小。然后与一般法对比做功能预测,采取Profile编码为基础,并使用NNA方法做分类检测,两者的预测率几乎相同。实验结果表明,这种选取数据训练集的方法是有效的。另外,提出了一种基于聚类的蛋白质功能预测方法。为了提取蛋白质序列的更多的特征信息,提出了两种编码,比较并选取了ProfileAA编码,它融合氨基酸的组成信息、氨基酸的物化性质信息。并与其它三类编码进行比较,证明其合理性。然后再做基于最小路径聚类的功能预测,为了较好的评估,基于自身的分类方法,做基于聚类的功能类预测与未基于聚类的功能类预测方法的比较,再与其它作者的方法做比较,最后的预测结果表明,这种基于聚类的蛋白质功能类预测方法取得较高预测率。
其他文献
2018年以来,东莞深入贯彻落实《打赢蓝天保卫战三年行动计划》,以“持续改善空气质量”为核心,积极推进升级产业结构、调整交通运输结构、深化工业源治理等,多措并举推动大气
目的:探讨不同程度哮喘急性发作患者外周血白介素-17(IL-17)及转化生长因子-β2(TGF-β2)的检测及其意义。方法:选取2014年3月至2016年3月在我院就诊的哮喘急性发作患者81例,
4月13日媒体报道,因认为闻喜县城镇呷哺呷哺火锅城未经授权擅自注册“闻喜县城镇呷哺呷哺火锅城” 企业字号,并在招牌上使用“呷哺呷哺涮锅城”,侵犯了其注册商标专有权,呷哺呷哺
5月4日召开的国务院常务会议通过一项决定,将派出督察组对地方推进民间投资进行督察,要求尽快激发中国民间投资活力。国务院常务会议称,当前民间投资增速有所回落,必须采取有力措
如今的大学校园已基本是“90后”的天地,他们自信、张扬、个性强、勇于表现自我。面对具有这些特点的“90后”大学生,作为辅导员,我们更应该在借鉴原有工作经验的基础上不断探寻
最大化发挥财务管理各项内容的积极作用,可以减少江西企业的运营成本,并提高江西上市企业的盈利能力和营业收入。目前,国内外行业之间、企业之间的合作越来越密切,同时带来的市场
利用有限元方法计算增压器止推轴承的应变场。确定转子轴向力的测量方案,并在增压器性能试验台上进行实验测量。试验结果表明,增压器在起/停工况下所受的轴向力的大小远大于
氧稳态的维持是细胞生命活动的基本前提。在进化过程中,细胞生物体获得了一系列机制以适应氧浓度变化,其中最重要的低氧信号传递因子是缺氧诱导因子-1(hypoxia-in- ducible f
2009年12月27日,全国农业工作会议在北京召开.农业部部长韩长赋出席会议并做主题报告。报告中,韩长赋充分肯定了2009年农业机械化事业所取得的显著成果,并对2010年的农机化工作提
350 km/h中国标准动车组网络控制系统遵循GB/T 28029.1—2011标准,采用WTB和MVB两级总线结构,布设以太网来实现软件更新及数据下载。通过制定列车级及车辆级通信协议,实现对