论文部分内容阅读
随着人类基因组计划的发展,衍生出数以万计的基因和海量级增长的基因序列数据,但是数据并不等于信息知识,却是知识信息的来源。如何从大量的基因表达数据中利用自动分析工具得到有用的知识是目前主要面临的问题,所以数据的分析方法和工具的开发越来越受到重视。数据挖掘技术已经被广泛的应用到基因表达谱的许多方面,并取得相当的成功。数据挖掘就是从大量的实际应用数据库中提取有用的信息知识,这些知识具有隐藏性、潜在性、未知性。数据挖掘作为一门新型的技术,为生物学家分析数据提供了有效的方法和工具,为基因表达数据分析提供了强有力的手段。数据挖掘方法和工具包括分类与预测、聚类分析、关联分析、序列分析及时间分析、孤立点分析等等。聚类分析作为一种有效的数据分析工具,已广泛地应用于图像处理、信息检索、数据挖掘等领域。利用聚类算法来分析基因表达数据的一个最主要的原因是基因表达数据数目的庞大,而且在生物学知识里具有已知功能基因的数目相对还是很少。聚类分析是指将一组样本依据其相互之间的相似程度归入几个子类中去,根本思想是确定类群,使同一类内的各个体间差异最小,而不同类间的差距最大。本文中介绍了聚类算法的相似性度量准则欧式距离和Pearson相关系数两种参数以及提出一种比例相似性度量准则。同时介绍了外部确定和内部确定两种聚类有效性评价。本文中的聚类算法选用了层次聚类、K均值聚类、自组织映射聚类三种经典算法。层次聚类根据不同类中的相似度准则分为四种不同的连接聚类,然后讨论在两种相似度下的四种层次聚类的有效性的比较。不同的实验迭代次数,在欧式距离下K均值聚类、自组织映射聚类的基因聚类的正确率以及其中较好的一次的聚类的有效性。比较三种算法优缺点提出来一种基于层次聚类和自组织映射聚类的改进算法,根据实验相关数据得出改进算法在某一些程度上的克服原来方法的缺陷,使得体现了改进算法的优点。