生物序列数据和图数据的处理及应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xiaodehuwei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这篇论文主要讨论了生物学领域中海量的DNA序列拼接问题和多个蛋白质相互作用网络中保守结构挖掘问题的相关关键技术及实际应用。提出了基于最大频繁序列模式的聚类方法,将DNA序列进行聚类,并开发了生物基因拼接网格系统,完成了日本血吸虫一组覆盖度为3的序列拼接。考察了蛋白质作用网络挖掘问题,提出了在多个作用网络挖掘保守结构的方法,考虑了生物数据噪声干扰的处理。 这篇文章分两大部分,前一部分讨论了使用基于最大频繁序列模式的聚类算法解决DNA序列拼接问题,后一部分讨论了蛋白质作用网络中搜索保守子结构的问题。首先对生物DNA序列拼接和生物网络挖掘问题作一个概括性的介绍,为该方向的研究现状勾勒出一个较为清晰的轮廓,从而确立了本文研究的意义和必要性。 本篇论文主要贡献有以下几个方面: 1.研究了生物DNA序列拼接中碰到的主要问题,并提出了通过序列聚类的方法将序列分组以降低数据处理的规模和复杂性,并探索了利用网格系统进行并行处理的方式,扩展了计算能力,提高了效率。该方法以序列间共享的最大频繁序列模式为相关度计算的基础进行聚类,并针对序列模式数量庞大,聚类过程中内存开销大的情况作了一些实现上的优化改进。 2.提出了最大频繁序列模式的挖掘算法。我们采用了深度优先的策略搜索所有的序列模式,并实现了基于aprori原理和闭合频繁序列模式的剪枝策略,并根据生物DNA序列数据量大,字符表小,支持度小等特点实现了优化方法。 3.研究了蛋白质作用网络中保守结构的发现问题,提出了在多个蛋白质作用网络中挖掘保守的子结构的方法。为了解决实验结果中噪声数据的影响及适应生物自身进化所产生的功能结构方面的变化,该方法在模式增长的时候考虑了图模式中节点跳跃,错配等情况。
其他文献
随着互联网的日益普及、移动通信的迅猛发展、网络传输以及各种新兴多媒体业务的出现,图像/视频编码技术已经成为当今信息科学与技术领域的研究热点。数据压缩是图像/视频编码
随着Internet的迅猛发展,网络已经在经济生活中得到了越来越多的应用。网络给人们提供了更为广阔的市场机会,传统商务开始逐渐向电子商务转型。但电子商务也回避不了安全问题
行人姿态估计是模式识别和计算机视觉领域中的重要问题,在智能视频监控、智能交通、人机交互等领域得到广泛应用。行人检测和头部姿态估计是行人姿态估计技术的两个重要组成部
在当今飞速发展的数据挖掘和探查性数据分析中,聚类分析技术已广泛应用于模式识别、图像处理、生物、心理、计算机视觉和遥感等领域。在实际问题中,已有的各种聚类算法各有其
在生物医学领域,由于Web数据源的大量涌现及其高度的异构性和自治性,加上生物信息本身所蕴含的复杂的领域联系,仅从语法和结构上进行信息集成难以满足应用的需要,从语义角度
云计算是伴随互联网的蓬勃发展应运而生的一种新型计算方式,它突破了传统计算的局限,增强了当下急需的计算能力,同时又提供了灵活的可扩展性。云应用是基于云计算思想实现,并部署
网格技术在图像处理领域的应用,可以较好地解决图像处理应用与高性能计算之间的矛盾。而网格环境广域、异构与动态特性以及图像处理数据量大、计算密集的特点,导致图像处理网格
数字化校园是利用计算机技术、网络技术、通讯技术对与学校教学、科研管理和生活服务有关的所有信息资源进行全面的数字化,并用科学规范的管理对这些信息资源进行整合和集成,以
近年来,数字化技术的不断发展、成熟和完善,为发展新一代的数字视频采集、图象处理、分析识别系统提供了有利条件。使其不再仅仅局限于工业生产,而是越来越广泛地应用于日常
随着网络的发展,信息量在不断增长,人们对信息的安全要求越来越高。人们想出很多种方法来实现数据的安全存储和传输,以及用户身份的安全认证。目前数据库在用户账户管理、验