论文部分内容阅读
在生物信息学上,传统的聚类在取得不断发展的同时,存在着某些不适应的地方,因为有时对象与对象之间除了存在距离之间的关系,也存在一致的“模式”关系,因此模式聚类的方法被提出来解决这种存在的问题,比如基于二维的MAPLE算法,不但找出了所以的关联聚类,而且突破了常见聚类中一个对象只能属于一个聚类的思维。
随着生物信息学的发展,二维的模式聚类已经不能满足新的需求,因此一种基于三维的模式聚类Q-clustering算法被提出来,该算法虽然提出了三维的模式聚类方法,但是无论在效率上,还是在速度上,都存在着许多不足的地方。
本文对原有的算法进行了分析和研究,提出了一种改进Q-clustering的新算法,即Qtop-k算法。该算法针对Q-clustering算法不能精确地反映相关簇类的紧密程度、寻找相关簇类效率较低等问题,通过设计0-ρ三角矩阵来寻找最大关联样本集(MCSSs),重新设计质量评价函数,对样本逆向列表进行修剪、对搜索流程进行压缩等方法,使计算得到的模式聚类的质量更加精确,使在搜索模式的聚类过程中,应用Qtop-k算法的核心剪枝技术能大大减少搜索的时间;针对生物信息研究的需要,为了突出某些基因或基因群的模式特征,进一步提出带有权重的三维模式聚类,并设计了基于权重三维模式聚类的质量评价函数,使在一定的权重函数作用下,基因组关联模式特征被挖掘的概率能大大提高。
本文分别通过实验进行了:
1)Qtop-k与K-Means聚类结果的比较;
2)模式聚类剪枝与改进模式聚类剪枝的效率比较;
3)模式聚类与基于权重模式聚类的基因组模式的挖掘比率提高的比较以及不同权重下基因识别质量评价比较,实验结果表明,Qtop-k算法比Q-clustering算法在时间效率,模式特征识别质量、参数递增敏感度等方面,都有着更大的优势。