论文部分内容阅读
这篇论文主要讨论了生物学领域中海量的DNA序列拼接问题和多个蛋白质相互作用网络中保守结构挖掘问题的相关关键技术及实际应用。提出了基于最大频繁序列模式的聚类方法,将DNA序列进行聚类,并开发了生物基因拼接网格系统,完成了日本血吸虫一组覆盖度为3的序列拼接。考察了蛋白质作用网络挖掘问题,提出了在多个作用网络挖掘保守结构的方法,考虑了生物数据噪声干扰的处理。
这篇文章分两大部分,前一部分讨论了使用基于最大频繁序列模式的聚类算法解决DNA序列拼接问题,后一部分讨论了蛋白质作用网络中搜索保守子结构的问题。首先对生物DNA序列拼接和生物网络挖掘问题作一个概括性的介绍,为该方向的研究现状勾勒出一个较为清晰的轮廓,从而确立了本文研究的意义和必要性。
本篇论文主要贡献有以下几个方面:
1.研究了生物DNA序列拼接中碰到的主要问题,并提出了通过序列聚类的方法将序列分组以降低数据处理的规模和复杂性,并探索了利用网格系统进行并行处理的方式,扩展了计算能力,提高了效率。该方法以序列间共享的最大频繁序列模式为相关度计算的基础进行聚类,并针对序列模式数量庞大,聚类过程中内存开销大的情况作了一些实现上的优化改进。
2.提出了最大频繁序列模式的挖掘算法。我们采用了深度优先的策略搜索所有的序列模式,并实现了基于aprori原理和闭合频繁序列模式的剪枝策略,并根据生物DNA序列数据量大,字符表小,支持度小等特点实现了优化方法。
3.研究了蛋白质作用网络中保守结构的发现问题,提出了在多个蛋白质作用网络中挖掘保守的子结构的方法。为了解决实验结果中噪声数据的影响及适应生物自身进化所产生的功能结构方面的变化,该方法在模式增长的时候考虑了图模式中节点跳跃,错配等情况。