论文部分内容阅读
基因芯片实验产生的基因表达数据是一个规模巨大的数据集合,通常包含成了千上万个基因,上百个样本,因此数据具有维度高、数据量大等特点。同时又因为生物个体本身的复杂性,基因表达的水平可能具有极大的差异,也可能高度相似,呈一种无序分散的状态。这些数据背后隐藏着巨大的信息,因此需要通过对基因表达数据的挖掘来揭示这些隐藏的信息。而双聚类是基因表达数据一种很好的分析工具,相比传统的聚类方法,双聚类能够挖掘出更加相似且具有生物意义的信息。因此,本文对基因表达数据的双聚类算法做了一系列的研究,主要工作有以下几点:首先,本文研究了双聚类的类型、结构、以及搜索策略,分析主流双聚类算法的特点,研究基于进化计算的双聚类算法的模型,并提出可以改进的方向。其次,本文最主要的工作是提出了一种基于进化计算的最大相似双聚类算法,用于基因表达数据的分析。该算法首先利用特征选择算法从基因表达数据中选择部分列作为参条件;然后基于参考条件将数据矩阵进行矩阵转换;接着根据参考基因求得转换矩阵的相似矩阵;最后利用进化计算方法,按照二元编码规则,初始化种群,进行迭代直到进化结束,得出最优个体。算法将满足一定条件的最优个体解码成双聚类并将结果保存于结果集中,最终输出一个双聚类的集合。最后,本文在各类基因表达数据上做了对比实验来检验算法的性能。第一类数据为创建的模拟数据集,第二类数据是两个酵母菌的基因表达数据,第三类数据是癌症基因表达数据。本文对从各类数据搜索出的双聚类按照一定的评分准则打分,比较各个双聚类算法的评分结果,验证了算法的性能优于某些其他的双聚类算法。另外,第三类数据的实验结果证明本文的双聚类算法对癌症的分类有不错的结果。