论文部分内容阅读
近些年来,基因芯片的研究越来越多,它在疾病诊断和治疗、药物筛选、农作物的优育优选等方面的作用日渐突出。根据研究目的的不同,基因芯片的数据分析方法包含差异基因表达分析、聚类分析和判别分析。基因芯片的聚类分析,就是分析基因或样本之间的相互关系,将具有某种相似性的基因归为一类。
本文探讨的是时间序列形式的基因芯片数据的聚类。传统的聚类方法有层次聚类、K-均值聚类和自组织映射聚类等。这些方法建立在常规的相似性度量上,对于时间序列聚类可能并不合适。针对基因芯片的时间序列聚类出现了一些新的方法,它们把数据的时间尺度考虑进去了。这些方法的内在准则,要么定义了适合时间表达数据的相似性度量,要么把时间序列之间的时间关系在后面的聚类过程中加以考虑。
本文考虑的是基于变差的时间序列数据聚类。该方法是先对谱的相邻两个数据取变差,再把得到向量用分段线性函数或三次样条函数拟合成连续函数,每个谱都拟合成连续函数后,用两个函数间的距离表示两个谱的距离。最后也用层次聚类对谱进行聚类。
本文中把这个方法运用到模拟数据和一个应用比较广泛的实际数据中,并与已有的方法进行比较,实验结果比较令人满意。