生物序列的图形表示及其应用

来源 :大连理工大学 | 被引量 : 16次 | 上传用户:ly0496lf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以生物序列的比较分析为背景,提出了一些新的图形表示,为生物序列的分类、分析、比较和储存等研究提供新的方法。另外,还展示了这些表示法在生物序列的相似性分析和构建进化树等问题上的具体应用。本文主要研究内容可以概括如下: 1.将DNA序列和氨基酸序列转化为2-D图形表示。DNA序列和氨基酸序列转化的二维图形类似于分子结构图,由此借助化学计量学方法计算了在经过转换所得图的基础上衍生出图的不变量(数学不变量)-Balaban指数和信息分布指数以及图对应的图论距离矩阵的平均频带宽度。并利用这些拓扑指数作为DNA序列和氨基酸序列的不变量分析了9个物种的β-球蛋白(globin)基因的第一个外显子DNA序列和6种yar029w等氨基酸序列的相似性和非相似性。 2.用1-D随机游动来描述DNA序列,得到了DNA序列对应的两个随机序列{Ym}和{Xn},进而验证了两个随机序列{Ym}和{Xn}都具有马尔可夫性,同时也得到了DNA序列的1-D游动曲线表示。基于DNA序列的图形表示以及马尔可夫链的转移概率分布、信息熵和随机序列的数字特征(均协方差)得到了DNA序列的一些新的数学不变量,进而利用这些数学不变量来比较了9个不同物种的β-球蛋白基因的第一个外显子的DNA序列的相似性。 3.现有的方法一般是基于多个序列的比对来构建物种进化树,作者提出了一种新的方法:在DNA序列的三维图形表示的基础上,利用图的不变量给出了序列之间的距离度量,进而定义了物种进化距离,并利用基于距离法的NJ算法构建了生物系统进化树。选取30个物种线粒体DNA序列为材料,得到的结果与传统的根据物种形态和其他方法构建的系统进化树基本一致。 4.在复平面上用二维随机游动来描述了RNA二级结构序列,得到了对应的随机游动曲线和随机复数字序列。在6-D空间中定义了使核苷酸集与点集之间一一对应的函数,进而利用这个函数在6-D空间中得到了RNA二级结构的6-D表示,然后基于6-D表示把它转化为矩阵表示和特征向量表示。并利用RNA二级结构对应的随机复数字序列的数字特征:模和相位,以及矩阵不变量:矩阵的最大特征值,特征向量来表征序列并且分析了AIMV-3等9种病毒的RNA二级结构序列的相似性。 5.给出了把RNA二级结构序列映射为“波谱线”和“Z型曲线”表示的三个递归公式。利用这三个递归公式给出了RNA二级结构序列的1-D、2-D和3-D图形表示,进一步利用1-D图形表示给出了关于RNA二级结构序列频谱分析的方法。 6.在DNA三联体密码子表示的基础上,在半复平面上给出了蛋白质序列的非退化的2-D图形表示,同时利用复向量的主要特征-模和相位,给出了蛋白质序列的一种数值刻划。进一步在3-D空间里,把20种氨基酸分别分配给正12面体的20个顶点,根据正12面体的对称性得到了20种氨基酸的3-D表示,进而得到了蛋白质序列的3-D图形表示和对应的数字序列,并利用图的不变量和数字序列的特征比较了9种动物的神经元基因序列的相似性并构建了一组细胞色素C蛋白质的序列进化树。
其他文献
编辑距离是A.Levenshtein于1966年提出的,用于判断字符串之间相似程度,等于将一个字符串通过基本变换转化为另一个字符串所需的最小代价。和Hamming距离不同,编辑距离可以计算的
对数理统计有所认识的学者,都知道Bayes统计的重要性.Bayes统计是在与经典统计的争论中逐渐发展起来的.对统计模型而言,基本问题是估计问题,然后以估计的结果进行深入的统计分析.分
学位
数据降维是用低维结构来表达高维数据之间关系的方法。许多非线性降维和流形学习方法如等距映射算法(Isomap),局部线性嵌入法(LLE)以及局部切空间排列法(LTSA)都是通过欧氏距
学位
A novel wavefront sensing method based on phase contrast theory and coherent optical processing is proposed. The wavefront gradient field in the object plane is
本文分两章。第一章分两节。第一节中回顾排队论的历史,第二节中先介绍补充变量方法,然后提出本文所要研究的问题。第二章共分两节。第一节中首先介绍具有可选服务的M/G/1排队
现实中常存在具有缺失数据时的参数估计或统计推断问题,对这类问题的处理往往是一件复杂工作,既牵涉到统计推断问题,又涉及到缺失数据产生的机制问题。目前的常规处理中,常假定数
本文致力于研究Turchin-Batzli捕食者一食饵系统的动力学行为,讨论了平衡点存在性、稳定性和极限环不存在性等.作为理论研究的补充,运用Matlab进行了数值模拟,分析了参数对系统动
云南省大理州烟草专卖局(公司)现辖有12个县市烟草公司和1个白肋烟公司、1个打叶复烤厂,年生产烤烟121.5万担,销售卷烟9.7万箱。随着烟草行业改革的深化和发展,我局围绕传统