生物序列的内在性质

来源 :江南大学 | 被引量 : 1次 | 上传用户:mzl521fnn1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是多学科的交叉产物,以计算机为工具对生物信息进行存储、检索和分析。本论文主要研究了生物序列可视化、比对以及蛋白质序列网络等有关问题。 从混沌游走中得到启发,引入CGR(ChaosGameRepresentation)的概念,定义了蛋白质混沌游走表示法(PCGR,Chaosgamerepresentationofprotein)。针对蛋白质序列的多重分形性质及其Renyi熵率进行进一步研究。数学领域中的分形理论和信息论中的熵率概念被引入到蛋白质序列的分析中:把20种氨基酸以看作符号序列,由混沌游走表示的二维可视化延伸到n维空间中,用分形维数来体现蛋白质序列的性质;另外,蛋白质序列也可以被看作一组信号,可以用信息熵的概念来进行刻画。然后把多重分形维数和符号序列的Renyi熵率之间通过概率测度μ建立对应关系。 氨基酸按照不同的性质进行分类,其分类的依据和偏重不同,分类结果也不同。文中介绍了两种分类:根据HP模型分为4类和依照理化性质分为7类,结合提出的一种新的比对算法,把分类过的两条蛋白质序列进行比对。利用蛋白质序列的PCGR距离,给定阈值k,迅速判断相同片段的长度及所在位置,降低了计算复杂度也可以保证比对效率,还可以根据比对结果判断序列的相似性。 另外结合分层聚类法,利用FCGR(Frequen cymatrice sextracted from CGRs)距离和二次偏差距离分别构造了26种生物的种系发生树。不同的距离定义、相同的数据,得到不同的种系树,可以探讨物种之间的进化关系。每个结点表示一段DNA片段,每一条连线都包含着片段之间的连接信息。通过复杂网络研究生物体的拓扑结构,主要通过测量聚类系数构建网络的拓扑结构。结果表明所构建的复杂网络的度分布呈现幂率性质,但是其幂率指数过小,这说明了DNA序列有着稳定的结构,但是在遗传过程中却存在大量的随机性和不稳定性。
其他文献
支持向量机SVM是实现统计学习理论的通用学习方法,其优异的泛化性能使得支持向量机在模式识别、回归分析和预测、密度估计等领域都得到了实际应用。当SVM用于回归分析和预测
面向服务体系结构(Service Oriented Architecture,SOA)对现代软件开发模式产生了深远的影响,它通过服务的发布、发现以及绑定等机制为其他的应用程序提供服务。SOA具有松散
随着计算机技术和互联网的普及,网络安全成为每一个网络用户所必须考虑的一个重要问题。一旦网络安全问题发生,通常会造成严重的后果。在越来越多的计算机用户将个人计算机接
谱图理论是图论的一个非常活跃而又重要的分支,它在计算机科学、通信网络、信息科学和量子化学等领域都有着广泛的应用。谱图理论研究的主要对象包括图的邻接谱,Laplacian谱以
随着人们对移动性的追求,以3G技术和无线局域网技术为代表的无线网络获得了巨大的发展,无线网络的角色从有线网络的补充逐渐转变为有线网络的有力竞争者,给有线网络带来了巨大的
电力企业资产管理是关系到企业能否稳定生产、降低成本、继续发展的头等大事。目前,电力企业资产管理仅停留在单机或C/S(Client/Server)二层结构的系统状态上,逻辑层不独立,软件
近年来,手势识别逐渐变成人机交互中的一种重要手段。相对于静态手势识别而言,动态手势识别在现实应用中更加广泛。而手势轨迹是运动特征中的一种,其简单、鲁棒的特性使其广泛地
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择
随着计算机技术的快速发展,网络安全问题成了计算机领域研究热点,缓冲区溢出(BOF,Buffer Overflow)以及病毒入侵逐渐成为影响网络系统乃至计算机系统安全的主要问题。因此,挖掘程序
基于图像的绘制技术是近几年兴起的一种新的虚拟场景绘制策略,已成为当前计算机视觉的一个研究热点。基于图像的绘制技术结合了计算机视觉、计算机图形学、图像处理、摄像测