基于图能量的蛋白质2D图形表示及其应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:RyanDay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的顺利实行与测序技术的急速发展,造成了生物序列数量的急剧增多。面对数以万计的数据,如何发现潜藏在生物数据中的生物信息,分析这些生物序列间的关系,是分子生物学研究中的重要任务。  作为构成生命体的物质基础,蛋白质在各种生命活动中发挥着非常重要的作用。在生物信息学的研究领域中,对蛋白质序列进行图形表示和相似性分析,是研究的热点也是难点。  本文依据氨基酸的物理化学性质,构建20种氨基酸对应的图形表示。引入图能量的相关理论知识,计算20种氨基酸对应的图能量。进一步构建一种简单新颖的蛋白质序列的图形表示,并从中提取蛋白质序列的数值特征,对蛋白质序列进行相似性分析。论文的主要研究内容如下:  (1)本文根据氨基酸的理化性质,提出了一种新颖的氨基酸2D图形表示方法。对于选取的6种理化性质,根据20种氨基酸在不同理化性质下的实验数据以及本文设定的阈值计算公式,构建20种氨基酸对应的图形表示,根据图能量的相关知识,计算20种氨基酸对应的图能量。  (2)根据求得的20种氨基酸的图能量以及氨基酸在蛋白质序列中的位置信息,给出蛋白质序列的2D图形表示。应用该方法对ND5数据集中的蛋白质序列进行图形表示,结果证明本文提出的图形表示方法是简单有效的,且具有良好的可视效果。  (3)根据本文构建的蛋白质序列的图形表示,进行蛋白质序列的相似性分析。利用转换公式将蛋白质序列转换为多维向量,根据相关理论和实验确定向量的维数。应用欧氏距离计算蛋白质序列两两间的距离并构造距离矩阵,应用距离矩阵构建系统发生树对结果进行检验。  (4)为了验证本文提出方法的合理有效性,将该方法应用到ND5、24TFs和36PDs三个数据集中,实验结果与现有的算法一致甚至更加合理。  实验证明,本文提出的根据氨基酸理化性质构建氨基酸2D图形表示的方法是合理的,并且具有一定的生物学意义。计算所得的20种氨基酸的图能量也可以很好地表征对应氨基酸。本文提出的蛋白质序列的图形表示方法是简单有效的,将该方法应用到蛋白质序列的相似性分析中,取得了比较理想的实验结果。
其他文献
现代数学中,积分方程构成了其重要组成部分,很多学科,像微分方程、计算数学、随机分析、近代泛函分析都与之有紧密联系。由于延迟积分方程数学物理的双向联系,在数学分支中迅
基于非同分布抽样的回归学习算法是核回归学习的一个重要分支。国际著名学习理论专家S.Smale和D.X.Zhou针对非同分布抽样提出边缘分布收敛假设(MDCA),但由于抽样的边缘分布与
KdV-Burgers方程具有广泛的物理背景,不仅大量用于流体力学和气体动力学的研究,而且还可以用来解释如激光波和水波等其他物理现象.KdV-Burgers方程的数值求解方法一直是计算数
L-函数是数论中神秘而特别常见的研究对象,最简单的例子就是Riemannζ函数.类似于Riemannζ函数,一般的L-函数也存在与之相关的广义Riemann假设、广义Ramanujan猜想等问题.众所
经常有人用“切蛋糕的刀”来形容分级基金的分级方式,因为如果把基金收益比喻为蛋糕,那么分级方式恰如一把切蛋糕的刀子,将基金收益分割成不同风险收益特征的份额,让投资者根
随着新课改的不断实施,体育游戏在体育教学中成为主要内容.体育作为小学生生活的重要组成部分,对培养学生认识世界和锻炼身体起着重要作用,在小学体育教学中进行有趣的体育游
今天,中国质量协会在京举办首届全国服务质量高层论坛暨首届全国优质服务大赛。我们很荣幸地邀请到来自有关政府部门、有关行业协会和服务业优秀企业的嘉宾、代表共同出席今
本文介绍图中一定条件的独立的圈及其在一些特殊图中的相关结果。  令G是一个图, V(G)和E(G)分别表示它的顶点集和边集。设v∈V(G),点v在G中的度数用d(v,G)表示,其中图G的最大
Partial矩阵是Chirkov在研究自动机理论时引入的,其在自动控制,图象处理,系统分析等方面也有着重要的应用,吸引了众多学者的关注.他们相继讨论了partial矩阵的正定填充、秩的